AgglomerativeClustering 大数据集

AgglomerativeClustering big dataset

提问人:Currant24 提问时间:11/13/2023 更新时间:11/13/2023 访问量:24

问:

我有一个大型数据集data_arr - 2600 万行。 我将其聚类为 50 个聚类 对我有用的聚类方法是 WARD。 使用这种方法,我得到了最合适的结果。

使用以下代码进行聚类分析:

n_clusters = 50
connectivity = grid_to_graph(*data_arr.shape, n_y = 1)

ward = AgglomerativeClustering(n_clusters, affinity='euclidean', linkage='ward', connectivity=connectivity).fit(data_arr.reshape(-1, 1))

它适用于多达 3-400 万行的数据集;如果较大,则无限期地工作。

原则上,我理解为什么,但是有没有办法以某种方式加快速度,或者有没有一种 Ward 方法可以在其他地方聚类?也许可以迭代不是所有的顶点,也不是 2600 万个顶点中的每一个?

python scikit-learn 大数据 分析 分层聚类

评论


答: 暂无答案