Python 中的数据操作:高效聚合数据

data manipulation in Python: aggregate data efficiently

提问人:Sophia 提问时间:6/8/2023 最后编辑:Sophia 更新时间:6/8/2023 访问量:17

问:

假设我有一个数据框(包含行和列),如下所示:100002

column1 (string)            column2 (integer)
'r1'                             3
'r2'                             4
'r3'                             1
'r4'                             1
...

我想比较中任意两行之间的相似性(我为此实现了一个函数),如果相似性是 ,那么我会将它们归类为一组。最后,我将使用新创建的组聚合数据帧并汇总。目前,我正在考虑使用循环,但它似乎效率低下。对此有什么意见吗?谢谢。column10.5column2for

注意:分组排他性:如果“r1”与“r2”的相似性,而“r2”与“r3”的相似性,则“r1”、“r2”和“r3”将在同一组中。0.50.5

预期输出如下:

column1 (string)            column2 (integer)   column3 (category)
'r1'                             3                 'group1'
'r2'                             4                 'group1'
'r3'                             1                 'group1'
'r4'                             1                 'group2'
...
python-3.x 数据操作

评论

1赞 Timeless 6/8/2023
预期输出尚不清楚。你能添加它并确保它与给定的示例匹配吗?
0赞 Sophia 6/8/2023
添加了预期的输出示例。感谢您的输入。

答: 暂无答案