使用 fuzzywuzzy 库根据特定列查找 pyspark 数据帧的相似行

Find similar rows of a pyspark dataframe based on a particular column using fuzzywuzzy library

提问人:DonkeyKong 提问时间:8/17/2023 最后编辑:DonkeyKong 更新时间:8/17/2023 访问量:26

问:

我正在尝试根据特定列在数据帧中查找“相似”行。例如,假设我们有这个数据——

+---+------+
| id| fruit|
+---+------+
|  1| apple|
|  2|  appl|
|  3|banana|
|  4|   ora|
|  5| banan|
|  6| bananana|
+---+------+

由于 id 1 和 2 的果实相似,因此我们将它们分组到一个列表中。同样,我们可以对香蕉这样做。因此,我想要得到的最终输出是 [[1, 2], [3, 5, 6], [4]]。

请注意,这是一个示例,实际上我的数据非常大,我想使用 pyspark 做类似的事情。

我尝试在 fuzzywuzzy 库中使用比率函数。我不知道如何在不将pyspark数据帧转换为pandas然后运行for循环以查找相似单词的情况下执行此操作。任何帮助都非常感谢。

谢谢!

python pyspark fuzzywuzzy fuzzy-comparison pyspark-pandas

评论


答: 暂无答案