提问人:TravisLong 提问时间:1/4/2017 最后编辑:CristikTravisLong 更新时间:5/26/2018 访问量:865
为连续目标变量找到“最佳”截止点的方法
Methods to Find 'Best' Cut-Off Point for a Continuous Target Variable
问:
我正在研究一个机器学习场景,其中目标变量是停电持续时间。
目标变量的分布严重偏斜(你可以想象大多数停电都会发生并且很快就结束了,但还有很多很多异常值可以持续更长的时间)随着持续时间越来越长,这些停电变得越来越难以用数据“解释”。它们或多或少成为“独特的中断”,即现场发生的事件不一定是其他中断的“典型”,也没有记录有关这些事件细节的数据,超出了所有其他“典型”中断的可用数据。
这会导致在创建模型时出现问题。这些无法解释的数据与可解释的部分混合在一起,也扭曲了模型的预测能力。
我分析了一些百分位数,以确定一个我认为包含尽可能多的中断的点,同时我仍然相信持续时间将在很大程度上是可以解释的。这大约是 320 分钟大关,包含大约 90% 的中断。
不过,在我看来,这完全是主观的,我知道必须有某种程序才能确定这个目标变量的“最佳”截止点。理想情况下,我希望此过程足够强大,以考虑包含尽可能多的数据的权衡,而不是告诉我将截止时间缩短 2 小时,从而减少大量客户,因为这样做的目的是为尽可能多的客户提供准确的估计恢复时间。
仅供参考:我目前使用的建模方法似乎效果最好,是随机森林和条件随机森林。我在此方案中使用的方法包括多元线性回归、决策树、随机森林和条件随机森林。MLR是迄今为止效果最差的。:(
答:
评论