将我的数据拆分为 60/40 比 80/20 更好-解网

问：

我正在使用 WEKA 使用分类（SMO 算法）来训练我的数据。这是我的数据集：在线购物者意向数据集

问题是，当我使用拆分验证并将数据拆分为 60/40 时，准确率为 87.7129%，而当我将其拆分为 80/20 时，准确率为 87.1452%。 [这是60/40分割的截图]（https://i.stack.imgur.com/JI4H5.png） [这是80/20拆分的截图]（https://i.stack.imgur.com/kv1Mb.png)

我很困惑，因为据我所知，我知道 80% 的拆分应该比 60% 的拆分更好。我能做些什么来解决这个问题？

机器学习拆分人工智能分类 WEKA

模型在测试集上的性能由多种因素决定，包括模型的复杂性、测试集的代表性以及数据中的固有噪声。如果你的 60/40 拆分恰好导致测试集更能代表整体数据分布，或者它只是包含噪声较小的示例，那么它很可能会带来更高的准确性。

对模型性能进行更可靠的估计的一种方法是使用交叉验证。这涉及将数据拆分为“k”个子集，并训练/测试模型“k”次，每次使用不同的子集作为测试集，其余数据作为训练集。然后，所有“k”个试验的平均性能将用作模型真实性能的估计值。

上一个：Vilion 图令人困惑，我们想要解释分类模型 [已关闭]

下一个：将与训练集中的数据相同的数据输入到 k 最近邻 - 它会预测吗？

将我的数据拆分为 60/40 比 80/20 更好

Splitting my data into 60/40 is better than 80/20

评论