AgglomerativeClustering 大数据集-解网

问：

我有一个大型数据集data_arr - 2600 万行。我将其聚类为 50 个聚类对我有用的聚类方法是 WARD。使用这种方法，我得到了最合适的结果。

使用以下代码进行聚类分析：

n_clusters = 50
connectivity = grid_to_graph(*data_arr.shape, n_y = 1)

ward = AgglomerativeClustering(n_clusters, affinity='euclidean', linkage='ward', connectivity=connectivity).fit(data_arr.reshape(-1, 1))

它适用于多达 3-400 万行的数据集;如果较大，则无限期地工作。

原则上，我理解为什么，但是有没有办法以某种方式加快速度，或者有没有一种 Ward 方法可以在其他地方聚类？也许可以迭代不是所有的顶点，也不是 2600 万个顶点中的每一个？

python scikit-learn 大数据分析分层聚类

AgglomerativeClustering 大数据集

AgglomerativeClustering big dataset

评论