分类后,所有簇的总熵可以大于 1 吗?

Can the total Entropy of all clusters be greater than 1, after classification?

提问人:SSaha13 提问时间:11/17/2023 最后编辑:SSaha13 更新时间:11/18/2023 访问量:23

问:

在对数据集(k = 3 的值)进行 k 均值分类后,我试图找出所有聚类的总熵。(数据点总数,或者数据集的总长度为:500)

我的分类结果:

聚类 1:类:中性,计数:
64,Pr(中性):0.30769 类:阳性,计数:85,Pr(阳性):0.40865

类:阴性,计数:59,Pr(负):0.28365

簇熵:1.566429

群集大小:208

聚类 2:类:中性,计数:
65,Pr(中性):0.363128 类:阳性,计数:36,Pr(阳性):0.2011173

类:阴性,计数:78,Pr(负):0.4357541

簇熵:1.5182706

集群大小:179

聚类 3:类:中性,计数:
39,Pr(中性):0.345132 类:阳性,计数:30,Pr(阳性):0.265486

类:阴性,计数:44,Pr(负):0.389380

簇熵:1.56750289

群集大小:113

总熵:1.549431124(即>1)

这意味着,第一个聚类包含 3 种不同类型(类)的数据点,(而对于一个完美的聚类,它应该只包含 1 种类型的类),即在第一个聚类中,总共有 208 个数据点,其中 64 个属于中性类,85 个属于正类,59 个属于负类, 其他 2 个集群依此类推

我用了公式:

单个集群的熵

enter image description here

其中:c 是所有分类的集合 C 中的分类 P(w_c) 是数据点在聚类 w 中被分类为 c概率。

enter image description here

其中: |w_c| 是聚类 W 中归类为 C 的点数 n_w 是聚类 W 中的点数

聚类的总熵

enter image description here

哪里:

enter image description here

是集群的集合。H(w) 是单个簇熵N_w是簇 w 中的点数 N 是总点数。

我使用上面的公式来计算聚类的总熵,我得到的结果是一个值> 1。我以为熵应该在 0 到 1 之间,但我还是得到了 1 >的东西,我无法理解我的错,我的计算错了吗?(但我使用了应该使用的公式),或者我遗漏了公式中的某些内容,或者诸如此类(您不妨自己在手动计算后检查结果)

数学 NLP 分析 分层聚类熵

评论


答:

0赞 fucalost 11/18/2023 #1

您正在使用 Shannon Entropy,它测量了分类分布中的不确定性。

因为你有三个类,所以可能的最大熵是 1.585 ()。log2(3)