具有数据集分割的 K-Means 聚类算法

K-Means clustering algorithm with dataset segmentations

提问人:ms_stud 提问时间:11/15/2023 更新时间:11/15/2023 访问量:27

问:

我知道这不是算法的工作方式,但我的系统中有一些约束和限制,并试图了解它是否适用。

我的问题:
k-means聚类算法需要整个数据集(观测值)才能进行聚类。
我的问题是有没有办法使用 k-means 算法(或其他算法),但以“迭代”方式,每次显示数据集的另一部分(下一段)并保留以前运行的一些“计算”。

例如:
将数据集分成 N 个部分,并在第一部分上运行 k 次迭代的算法,得到结果并以某种方式以良好的方式存储结果,以便将来使用。
在所有部件上运行算法后,获取存储的结果并使用它(可能通过在其上重新运行算法)来给出最终结果。

算法 k-means

评论

2赞 Mark Setchell 11/15/2023
请问你到底想在这里实现什么?一个最小的可重复的例子将不胜感激。您可以使用从第一个数据集派生的质心作为第二个数据集的起始位置......
0赞 ms_stud 11/15/2023
你提到的质心或多或少是我试图实现的,无论如何我都会添加一个例子。
2赞 Stef 11/15/2023
是的,这听起来绝对有可能。您甚至不需要自己重新实现所有内容;sklearn 中的 KMeans 类允许您重新馈送集群中心并控制迭代次数:scikit-learn.org/stable/modules/generated/...

答: 暂无答案