提问人:DonkeyKong 提问时间:8/17/2023 最后编辑:DonkeyKong 更新时间:8/17/2023 访问量:26
使用 fuzzywuzzy 库根据特定列查找 pyspark 数据帧的相似行
Find similar rows of a pyspark dataframe based on a particular column using fuzzywuzzy library
问:
我正在尝试根据特定列在数据帧中查找“相似”行。例如,假设我们有这个数据——
+---+------+
| id| fruit|
+---+------+
| 1| apple|
| 2| appl|
| 3|banana|
| 4| ora|
| 5| banan|
| 6| bananana|
+---+------+
由于 id 1 和 2 的果实相似,因此我们将它们分组到一个列表中。同样,我们可以对香蕉这样做。因此,我想要得到的最终输出是 [[1, 2], [3, 5, 6], [4]]。
请注意,这是一个示例,实际上我的数据非常大,我想使用 pyspark 做类似的事情。
我尝试在 fuzzywuzzy 库中使用比率函数。我不知道如何在不将pyspark数据帧转换为pandas然后运行for循环以查找相似单词的情况下执行此操作。任何帮助都非常感谢。
谢谢!
答: 暂无答案
评论