假设检验 - 新手阻滞剂

Hypothesis testing - Newbie blockers

提问人:AKK 提问时间:10/29/2023 最后编辑:Zac Hatfield-DoddsAKK 更新时间:11/15/2023 访问量:37

问:

简介:我来自制造业,我们生产线上的一台加工机器曾经在一条生产线上进行压制、抛光和质量保证。现在我们有了一台新机器,可以同时单独执行这些操作。理想情况下,新机器会比旧机器更好。我想证明新机器的平均时间明显少于旧机器。

原假设 - 没有显著性差异

备选假设 - 新机器所用时间少于旧机器。

我最初计划执行引导来识别总体分布,假设数据呈正态分布,我计划使用两个样本 t 检验,否则使用 Mann Whitney U 检验。由于机器故障,每小时 50K 或更高的数据中也存在一些极端异常值,例如 2%。我想完全删除这些异常值,因为它们小于 5%。

我的问题是,在研究过程中,我遇到了正态性检验(Shapiro-Wilk),尽管我可能有助于在统计学上确认正态性。然后我遇到了样本量的比例测试,这也是推荐的。然后遇到了(winsorized mean),用于用非异常值替换异常值。

只是定期(相信我,我没有过度研究)研究,我就被过多的信息淹没了,这非常令人困惑。对于我的用例来说,理想的框架应该是什么。你们都建议我做什么,纠正或参考???

我执行了我最初计划执行的所有步骤,但是,现在重新考虑这是否正确。

统计量 正态分布 重采样 假设检验

评论

0赞 Robert Dodier 10/29/2023
有趣的问题,虽然这里是题外话;更适合 stats.stackexchange.com。也就是说,我有一些建议。首先,我的建议是计算一些在问题领域有意义的品质因数。如果每小时的单位数是有意义的,那么直接查看每小时单位数的差异。不要为统计意义而烦恼,只为实际意义而烦恼:每小时增加的单位数量是否值得一台新机器的成本?或类似的注意事项。您知道机器并不相同,因此单位/小时的差异必须不为零,
0赞 Robert Dodier 10/29/2023
因此,在任何给定的测试中,它是否“显着”仅取决于样本量;这在问题域中不是一个有用的结果。此外,不要遗漏任何异常数据,除非您要确保此类数据在正常操作条件下是不可能的。如果此类数据仍然可能,则公平比较包括所有数据,包括通常和不寻常的数据。

答: 暂无答案