确定两个独立数据集之间统计显著性的方法-解网

问：

假设和是两个数据集。每个数据集可能都具有特征。如何对这些独立数据集进行假设检验以比较统计显著性？AB100

我尝试用 Python 编写代码。我已经预处理了这两个数据集，并且考虑到列已归一化，我尝试使用 Student 的测试。数据集是具有连续值的表格数据，并对分类特征进行了一次热编码。我尝试对两个数据集中的数字列进行执行。但我似乎无法弄清楚如何在整个数据集上执行。我使用了图书馆。tt-testscipy.stats

Python 统计分析假设检验 Kolmogorov-Smirnov

import numpy as np
from scipy.stats import ks_2samp

n = 100 # number of samples

A = np.hstack((np.random.normal(loc=0, scale=1, size=n).reshape(-1,1), \
               np.random.normal(loc=0, scale=1, size=n).reshape(-1,1)))

B = np.hstack((np.random.normal(loc=0, scale=1, size=n).reshape(-1,1), \
               np.random.normal(loc=20, scale=5, size=n).reshape(-1,1)))

如果绘制数据集要素的直方图，将获得如下图：

显然，第二个特征很可能是从不同的发行版中选择的。让我们通过测试进行验证。KS

for i in range(A.shape[1]):
    print(f'Kolmogorov-Smirnov test for feature column {i}')
    statistic, pvalue = ks_2samp(A[:,i], B[:,i])
    print(f"Test statistic: {statistic}")
    print(f"P-value: {pvalue}")

# Kolmogorov-Smirnov test for feature column 0
# Test statistic: 0.13
# P-value: 0.36818778606286096  # can't reject H0

# Kolmogorov-Smirnov test for feature column 1
# Test statistic: 1.0
# P-value: 2.2087606931995054e-59 # reject H0

从上面可以看出，使用测试，KS

我们不能拒绝原假设（在显著性水平上），即数据集的第一个特征来自同一分布，因为是高（），5%ABp-value0.368 > 0.05
我们可以正确地否定原假设，即数据集的第二个特征来自同一分布，因为几乎是 .ABp-value0

您可以对 -column 数据集使用相同的方法，方法是逐向比较它们。100

上一个：python中多个变量和组的显著性的n因子方差分析检验

下一个：如何计算均值差值的 t 检验来评估哪种算法获得更高的 F1 分数？

确定两个独立数据集之间统计显著性的方法

Ways to determine the statistical significance between two independent datasets

评论