提问人:curios 提问时间:5/15/2023 最后编辑:curios 更新时间:5/17/2023 访问量:118
来自 Pyspark.sql.functions 的 levenshtein 非常慢
levenshtein from pyspark.sql.functions is very slow
问:
我需要进行模糊匹配并使用 levenshtein pyspark 函数,因为它是内置的 pyspark 函数,我认为会比 udf 有速度优势。它非常慢,数据帧中大约有 341 行(最大),并且正在使用 5 个数据帧。测试单词的输入只有大约 7 个单词。但这在整个处理过程中大约需要 24 秒。有人可以提出更好的方法来做到这一点,以缩短响应时间。
当我在收集数据帧后进行模糊匹配时,速度更快。这不应该是这种情况,因为在收集之后,处理只发生在主服务器上,而在数据帧上使用levenshtein,使用数据节点进行并行处理。不知道为什么它更慢。
答: 暂无答案
评论