Python 中的数据操作：高效聚合数据-解网

问：

假设我有一个数据框（包含行和列），如下所示：100002

column1 (string)            column2 (integer)
'r1'                             3
'r2'                             4
'r3'                             1
'r4'                             1
...

我想比较中任意两行之间的相似性（我为此实现了一个函数），如果相似性是，那么我会将它们归类为一组。最后，我将使用新创建的组聚合数据帧并汇总。目前，我正在考虑使用循环，但它似乎效率低下。对此有什么意见吗？谢谢。column10.5column2for

注意：分组排他性：如果“r1”与“r2”的相似性，而“r2”与“r3”的相似性，则“r1”、“r2”和“r3”将在同一组中。0.50.5

预期输出如下：

column1 (string)            column2 (integer)   column3 (category)
'r1'                             3                 'group1'
'r2'                             4                 'group1'
'r3'                             1                 'group1'
'r4'                             1                 'group2'
...

python-3.x 数据操作

Python 中的数据操作：高效聚合数据

data manipulation in Python: aggregate data efficiently

评论