提问人:SSaha13 提问时间:11/17/2023 最后编辑:SSaha13 更新时间:11/18/2023 访问量:23
分类后,所有簇的总熵可以大于 1 吗?
Can the total Entropy of all clusters be greater than 1, after classification?
问:
在对数据集(k = 3 的值)进行 k 均值分类后,我试图找出所有聚类的总熵。(数据点总数,或者数据集的总长度为:500)
我的分类结果:
聚类 1:类:中性,计数:
64,Pr(中性):0.30769 类:阳性,计数:85,Pr(阳性):0.40865
类:阴性,计数:59,Pr(负):0.28365
簇熵:1.566429
群集大小:208
聚类 2:类:中性,计数:
65,Pr(中性):0.363128 类:阳性,计数:36,Pr(阳性):0.2011173
类:阴性,计数:78,Pr(负):0.4357541
簇熵:1.5182706
集群大小:179
聚类 3:类:中性,计数:
39,Pr(中性):0.345132 类:阳性,计数:30,Pr(阳性):0.265486
类:阴性,计数:44,Pr(负):0.389380
簇熵:1.56750289
群集大小:113
总熵:1.549431124(即>1)
这意味着,第一个聚类包含 3 种不同类型(类)的数据点,(而对于一个完美的聚类,它应该只包含 1 种类型的类),即在第一个聚类中,总共有 208 个数据点,其中 64 个属于中性类,85 个属于正类,59 个属于负类, 其他 2 个集群依此类推
我用了公式:
单个集群的熵
其中:c 是所有分类的集合 C 中的分类 P(w_c) 是数据点在聚类 w 中被分类为 c 的概率。
其中: |w_c| 是聚类 W 中归类为 C 的点数 n_w 是聚类 W 中的点数
聚类的总熵
哪里:
是集群的集合。H(w) 是单个簇熵N_w是簇 w 中的点数 N 是总点数。
我使用上面的公式来计算聚类的总熵,我得到的结果是一个值> 1。我以为熵应该在 0 到 1 之间,但我还是得到了 1 >的东西,我无法理解我的错,我的计算错了吗?(但我使用了应该使用的公式),或者我遗漏了公式中的某些内容,或者诸如此类(您不妨自己在手动计算后检查结果)
答:
您正在使用 Shannon Entropy,它测量了分类分布中的不确定性。
因为你有三个类,所以可能的最大熵是 1.585 ()。log2(3)
评论