提问人:Derbengale 提问时间:10/25/2023 最后编辑:desertnautDerbengale 更新时间:10/26/2023 访问量:29
训练随机森林分类器:对单个测量文件进行大规模排序
Training a Random Forest Classifier: Mass sorting of single measurement files
问:
我有一个旧的但不能完美工作的随机森林分类器,我想用它来改进,我已经对 3000 个文件进行了预分类,所以我有一个文件夹(包含一个“坏”和“好”文件夹),其中 90% 的测量值被正确分类。
我想改进我的随机森林分类器以找到最后 10%。
我的测量文件来自一台仪器,其中我有大约 150,000 个测量值,每个测量值大约 1 KB。测量文件具有不同的长度。(X Y 数据)
为了改进分类器,我试图确定彼此尽可能不同的测量文件,为此,我使用了带有 PCA 分析的 K 均值聚类。由于文件的长度不同,我确定了一个特征向量,并试图找到测量的特征。我抵消了描述最小变异的因子。
然后我说 K 是 50 以找到尽可能多的不同测量值,并将每个测量文件移动到相应的 K 文件夹中。我从每个 k 文件夹中挑选了 75 个单个测量文件,并将它们复制到我的训练文件夹中。
现在来谈谈我的实际问题:
上次我手动挑选文件来训练随机森林分类器。它已经运行得很好了。我用它来预分类我的新训练文件夹。这意味着我的训练文件夹现在由一个好文件夹和一个坏文件夹组成,每个文件夹中已经有许多正确排序的文件。
现在,我正在寻找一种方法来挑选出剩余的几个测量值(例如,快速排序工具),而不必单独查看每个测量值,因此我想做的是一次绘制大量测量值,然后理想情况下,使用框选择工具在画布上拖动一个框以选择剩余的错误分类测量值。这样我就可以更轻松地对它们进行分类。
总而言之,让你们更容易回答:
- 你们对我的方法有什么看法?你知道更好的方法吗?
- 您知道如何实现选盒工具吗?
- 或者更好的是,有没有一个好的现有工具?
在我的程序中,我使用 Python 3.11,但不介意切换到任何其他编程语言来完成此任务。
答: 暂无答案
评论