训练随机森林分类器：对单个测量文件进行大规模排序-解网

问：

我有一个旧的但不能完美工作的随机森林分类器，我想用它来改进，我已经对 3000 个文件进行了预分类，所以我有一个文件夹（包含一个“坏”和“好”文件夹），其中 90% 的测量值被正确分类。

我想改进我的随机森林分类器以找到最后 10%。

我的测量文件来自一台仪器，其中我有大约 150,000 个测量值，每个测量值大约 1 KB。测量文件具有不同的长度。（X Y 数据）

为了改进分类器，我试图确定彼此尽可能不同的测量文件，为此，我使用了带有 PCA 分析的 K 均值聚类。由于文件的长度不同，我确定了一个特征向量，并试图找到测量的特征。我抵消了描述最小变异的因子。

然后我说 K 是 50 以找到尽可能多的不同测量值，并将每个测量文件移动到相应的 K 文件夹中。我从每个 k 文件夹中挑选了 75 个单个测量文件，并将它们复制到我的训练文件夹中。

现在来谈谈我的实际问题：

上次我手动挑选文件来训练随机森林分类器。它已经运行得很好了。我用它来预分类我的新训练文件夹。这意味着我的训练文件夹现在由一个好文件夹和一个坏文件夹组成，每个文件夹中已经有许多正确排序的文件。

现在，我正在寻找一种方法来挑选出剩余的几个测量值（例如，快速排序工具），而不必单独查看每个测量值，因此我想做的是一次绘制大量测量值，然后理想情况下，使用框选择工具在画布上拖动一个框以选择剩余的错误分类测量值。这样我就可以更轻松地对它们进行分类。

总而言之，让你们更容易回答：

在我的程序中，我使用 Python 3.11，但不介意切换到任何其他编程语言来完成此任务。

机器学习 scikit-learn 随机森林 k-means

训练随机森林分类器：对单个测量文件进行大规模排序