来自 Pyspark.sql.functions 的 levenshtein 非常慢-解网

首页
技术问答
来自 Pyspark.sql.functions 的 levenshtein 非常慢

问：

我需要进行模糊匹配并使用 levenshtein pyspark 函数，因为它是内置的 pyspark 函数，我认为会比 udf 有速度优势。它非常慢，数据帧中大约有 341 行（最大），并且正在使用 5 个数据帧。测试单词的输入只有大约 7 个单词。但这在整个处理过程中大约需要 24 秒。有人可以提出更好的方法来做到这一点，以缩短响应时间。

当我在收集数据帧后进行模糊匹配时，速度更快。这不应该是这种情况，因为在收集之后，处理只发生在主服务器上，而在数据帧上使用levenshtein，使用数据节点进行并行处理。不知道为什么它更慢。

Pyspark levenshtein-距离模糊比较

答： 暂无答案

上一个：是否可以使用 Python 模糊匹配在 Power Query 编辑器（Power BI）中合并两个表？

下一个：使用 Adist 确定哪个元素只需要删除

来自 Pyspark.sql.functions 的 levenshtein 非常慢

levenshtein from pyspark.sql.functions is very slow

评论