获取数据集中 null 值的计数

To get count of null values in the dataset

提问人:B.h.1999 提问时间:8/16/2023 更新时间:8/16/2023 访问量:39

问:

要求是,我们需要检查数据集中的重复值,并返回以整数形式返回的重复值的计数。

我已经编写了这段代码,但出现以下错误:

def check_duplicates():
    ds = pd.read_csv("Hospital_patients_datasets.csv")
    # Method to check for duplicate rows in the DataFrame.
    # Returns: The number of duplicated rows found in the DataFrame.
    ds=ds.duplicated().count()
    return ds

运行测试用例 -------------测试用例失败------------- 您的输出与预期输出不匹配: --------------------------------------------- 您的更新结果: 110527

Expected Output: 
0

需要对数据集中的重复值进行实际计数。

提前致谢!!

Python 数据帧 null 重复 数据分析

评论

0赞 Mark 8/16/2023
嗨,B.h.1999!欢迎来到 StackOverflow!
0赞 Mark 8/16/2023
您想获取空计数还是重复计数?此外,重复的行、列中的重复值或整个数据帧中的重复?
0赞 GreenChicken 8/16/2023
duplicated() 返回一个布尔级数,你可以对它使用 count(Ture) 来获取重复项的数量
1赞 user19077881 8/16/2023
由于 True 和 False 等价于 1 和 0,因此可以使用以下命令从生成的布尔系列中获取计数duplicated()dupes = ds.duplicated().sum()

答:

0赞 Henil Rupawala 8/16/2023 #1

您可以使用 DataFrame.pivot_table() 函数计算 pandas DataFrame 中的重复项。此函数计算单列、多列中的重复条目数,并在 DataFrame 中具有 NaN 值时计算重复项数。

# Get count duplicates single column
ds.pivot_table(index = ['column_name'], aggfunc ='size')

# Get count duplicates multiple columns
ds.pivot_table(index = ['Column_1_name', 'Column_2_name'], aggfunc ='size')

评论

0赞 B.h.1999 8/16/2023
是的,谢谢!!它对我有用!我使用了 ** ds = pd.read_csv(“Hospital_patients_datasets.csv”) # 方法来检查 DataFrame 中的重复行。# 返回值:在 DataFrame 中找到的重复行数。dup=ds.duplicated().sum() 返回 dup**