获取数据集中 null 值的计数-解网

问：

要求是，我们需要检查数据集中的重复值，并返回以整数形式返回的重复值的计数。

我已经编写了这段代码，但出现以下错误：

def check_duplicates():
    ds = pd.read_csv("Hospital_patients_datasets.csv")
    # Method to check for duplicate rows in the DataFrame.
    # Returns: The number of duplicated rows found in the DataFrame.
    ds=ds.duplicated().count()
    return ds

运行测试用例 -------------测试用例失败------------- 您的输出与预期输出不匹配： --------------------------------------------- 您的更新结果： 110527

Expected Output: 
0

需要对数据集中的重复值进行实际计数。

提前致谢！！

Python 数据帧 null 重复数据分析

评论

0赞 Mark 8/16/2023

嗨，B.h.1999！欢迎来到 StackOverflow！

0赞 Mark 8/16/2023

您想获取空计数还是重复计数？此外，重复的行、列中的重复值或整个数据帧中的重复？

0赞 GreenChicken 8/16/2023

duplicated（）返回一个布尔级数，你可以对它使用 count（Ture）来获取重复项的数量

1赞 user19077881 8/16/2023

由于 True 和 False 等价于 1 和 0，因此可以使用以下命令从生成的布尔系列中获取计数duplicated()dupes = ds.duplicated().sum()

答：

0赞 Henil Rupawala 8/16/2023 #1

您可以使用 DataFrame.pivot_table（）函数计算 pandas DataFrame 中的重复项。此函数计算单列、多列中的重复条目数，并在 DataFrame 中具有 NaN 值时计算重复项数。

# Get count duplicates single column
ds.pivot_table(index = ['column_name'], aggfunc ='size')

# Get count duplicates multiple columns
ds.pivot_table(index = ['Column_1_name', 'Column_2_name'], aggfunc ='size')

评论

0赞 B.h.1999 8/16/2023

是的，谢谢！！它对我有用！我使用了 ** ds = pd.read_csv（“Hospital_patients_datasets.csv”） # 方法来检查 DataFrame 中的重复行。# 返回值：在 DataFrame 中找到的重复行数。dup=ds.duplicated（）.sum（）返回 dup**

上一个：在 Python-Pandas 中允许/传递 null 值

下一个：数值列的 pandas <NA> 和 NaN 之间的区别