提问人:Sophia 提问时间:6/8/2023 最后编辑:Sophia 更新时间:6/8/2023 访问量:17
Python 中的数据操作:高效聚合数据
data manipulation in Python: aggregate data efficiently
问:
假设我有一个数据框(包含行和列),如下所示:10000
2
column1 (string) column2 (integer)
'r1' 3
'r2' 4
'r3' 1
'r4' 1
...
我想比较中任意两行之间的相似性(我为此实现了一个函数),如果相似性是 ,那么我会将它们归类为一组。最后,我将使用新创建的组聚合数据帧并汇总。目前,我正在考虑使用循环,但它似乎效率低下。对此有什么意见吗?谢谢。column1
0.5
column2
for
注意:分组排他性:如果“r1”与“r2”的相似性,而“r2”与“r3”的相似性,则“r1”、“r2”和“r3”将在同一组中。0.5
0.5
预期输出如下:
column1 (string) column2 (integer) column3 (category)
'r1' 3 'group1'
'r2' 4 'group1'
'r3' 1 'group1'
'r4' 1 'group2'
...
答: 暂无答案
下一个:Python pandas 操作
评论