使用 fuzzywuzzy 库根据特定列查找 pyspark 数据帧的相似行-解网

问：

我正在尝试根据特定列在数据帧中查找“相似”行。例如，假设我们有这个数据——

+---+------+
| id| fruit|
+---+------+
|  1| apple|
|  2|  appl|
|  3|banana|
|  4|   ora|
|  5| banan|
|  6| bananana|
+---+------+

由于 id 1 和 2 的果实相似，因此我们将它们分组到一个列表中。同样，我们可以对香蕉这样做。因此，我想要得到的最终输出是 [[1， 2]， [3， 5， 6]， [4]]。

请注意，这是一个示例，实际上我的数据非常大，我想使用 pyspark 做类似的事情。

我尝试在 fuzzywuzzy 库中使用比率函数。我不知道如何在不将pyspark数据帧转换为pandas然后运行for循环以查找相似单词的情况下执行此操作。任何帮助都非常感谢。

谢谢！

python pyspark fuzzywuzzy fuzzy-comparison pyspark-pandas

使用 fuzzywuzzy 库根据特定列查找 pyspark 数据帧的相似行