为连续目标变量找到“最佳”截止点的方法

Methods to Find 'Best' Cut-Off Point for a Continuous Target Variable

提问人:TravisLong 提问时间:1/4/2017 最后编辑:CristikTravisLong 更新时间:5/26/2018 访问量:865

问:

我正在研究一个机器学习场景,其中目标变量是停电持续时间。

目标变量的分布严重偏斜(你可以想象大多数停电都会发生并且很快就结束了,但还有很多很多异常值可以持续更长的时间)随着持续时间越来越长,这些停电变得越来越难以用数据“解释”。它们或多或少成为“独特的中断”,即现场发生的事件不一定是其他中断的“典型”,也没有记录有关这些事件细节的数据,超出了所有其他“典型”中断的可用数据。

这会导致在创建模型时出现问题。这些无法解释的数据与可解释的部分混合在一起,也扭曲了模型的预测能力。

我分析了一些百分位数,以确定一个我认为包含尽可能多的中断的点,同时我仍然相信持续时间将在很大程度上是可以解释的。这大约是 320 分钟大关,包含大约 90% 的中断。

不过,在我看来,这完全是主观的,我知道必须有某种程序才能确定这个目标变量的“最佳”截止点。理想情况下,我希望此过程足够强大,以考虑包含尽可能多的数据的权衡,而不是告诉我将截止时间缩短 2 小时,从而减少大量客户,因为这样做的目的是为尽可能多的客户提供准确的估计恢复时间。

仅供参考:我目前使用的建模方法似乎效果最好,是随机森林和条件随机森林。我在此方案中使用的方法包括多元线性回归、决策树、随机森林和条件随机森林。MLR是迄今为止效果最差的。:(

机器学习统计数据 挖掘 数据 操作

评论


答:

0赞 Ricardo Guerreiro 5/26/2018 #1

我有完全相同的问题!我希望有更见多识广的人带来他的知识。我徘徊到什么时候是长持续时间,我们想要丢弃的东西或我们想要预测的东西! 此外,我尝试通过对数变换来处理我的数据,密度图在分布的左侧显示了一个有趣的伪影(因为我只有整数的持续时间,而不是浮点数)。我认为这很有帮助,您还应该对具有相似分布的特征进行日志转换。

Frequency of durations (Log tranformed)

我最终认为解决方案应该是分层抽样或对特征进行加权,但我不知道如何实现。我的尝试没有产生任何好的结果。也许我的数据太随机了!