提问人:Currant24 提问时间:11/13/2023 更新时间:11/13/2023 访问量:24
AgglomerativeClustering 大数据集
AgglomerativeClustering big dataset
问:
我有一个大型数据集data_arr - 2600 万行。 我将其聚类为 50 个聚类 对我有用的聚类方法是 WARD。 使用这种方法,我得到了最合适的结果。
使用以下代码进行聚类分析:
n_clusters = 50
connectivity = grid_to_graph(*data_arr.shape, n_y = 1)
ward = AgglomerativeClustering(n_clusters, affinity='euclidean', linkage='ward', connectivity=connectivity).fit(data_arr.reshape(-1, 1))
它适用于多达 3-400 万行的数据集;如果较大,则无限期地工作。
原则上,我理解为什么,但是有没有办法以某种方式加快速度,或者有没有一种 Ward 方法可以在其他地方聚类?也许可以迭代不是所有的顶点,也不是 2600 万个顶点中的每一个?
答: 暂无答案
评论