提问人:ApaarBawa 提问时间:7/7/2023 更新时间:7/7/2023 访问量:45
分析分类特征的卡方检验
Analyzing chi-square test for categorical features
问:
我有一个包含许多分类特征的数据集,并希望找到这些特征之间的相关性。目前,我正在使用独立性检验的卡方检验。
根据检验,如果 p 值<显著性水平(通常为 0.05),我可以否定我的原假设并说变量是相关的。首先,我们创建一个观察到的列联表。我的疑问是,如果我在列联表中有许多值为 0(即稀疏矩阵)的单元格,我是否可以依赖chi_square统计数据,因为chi_square假设是:
- 这两个样本是独立的
- 没有预期的单元格计数 = 0
- 不超过 20% 的细胞的预期细胞计数< 5
为了更清楚起见,让我用一个例子来解释我的疑问。假设我在美国数据集中有名为“city”和“state”的特征。如果亚特兰大市位于佐治亚州,则亚特兰大与其他州之间的所有像元在城市和州的列联表中均为 0,因此假设将不满足。我还能在这里使用卡方检验吗?如果是,请说明原因,如果不是,请说明在这种情况下应采取的措施。
我从这个来源参考了。
如果我在这里遗漏了一些重要的东西,请帮助我知道。提前致谢。
答: 暂无答案
评论