提问人:B.h.1999 提问时间:8/16/2023 更新时间:8/16/2023 访问量:39
获取数据集中 null 值的计数
To get count of null values in the dataset
问:
要求是,我们需要检查数据集中的重复值,并返回以整数形式返回的重复值的计数。
我已经编写了这段代码,但出现以下错误:
def check_duplicates():
ds = pd.read_csv("Hospital_patients_datasets.csv")
# Method to check for duplicate rows in the DataFrame.
# Returns: The number of duplicated rows found in the DataFrame.
ds=ds.duplicated().count()
return ds
运行测试用例 -------------测试用例失败------------- 您的输出与预期输出不匹配: --------------------------------------------- 您的更新结果: 110527
Expected Output:
0
需要对数据集中的重复值进行实际计数。
提前致谢!!
答:
0赞
Henil Rupawala
8/16/2023
#1
您可以使用 DataFrame.pivot_table() 函数计算 pandas DataFrame 中的重复项。此函数计算单列、多列中的重复条目数,并在 DataFrame 中具有 NaN 值时计算重复项数。
# Get count duplicates single column
ds.pivot_table(index = ['column_name'], aggfunc ='size')
# Get count duplicates multiple columns
ds.pivot_table(index = ['Column_1_name', 'Column_2_name'], aggfunc ='size')
评论
0赞
B.h.1999
8/16/2023
是的,谢谢!!它对我有用!我使用了 ** ds = pd.read_csv(“Hospital_patients_datasets.csv”) # 方法来检查 DataFrame 中的重复行。# 返回值:在 DataFrame 中找到的重复行数。dup=ds.duplicated().sum() 返回 dup**
评论
duplicated()
dupes = ds.duplicated().sum()