levenshtein-距离 问答列表

Levenshtein on dataframe 列和输入列表

作者:curios 提问时间:4/24/2023

pyspark 的新手,我需要做模糊匹配。发现 levenhenstein 是一个可以做到这一点的原生函数。我有一个这样的数据帧: +----------------+---------------...

来自 Pyspark.sql.functions 的 levenshtein 非常慢

作者:curios 提问时间:5/15/2023

我需要进行模糊匹配并使用 levenshtein pyspark 函数,因为它是内置的 pyspark 函数,我认为会比 udf 有速度优势。它非常慢,数据帧中大约有 341 行(最大),并且正在使用...


共2条 当前第1页