Levenshtein on dataframe 列和输入列表
作者:curios 提问时间:4/24/2023
pyspark 的新手,我需要做模糊匹配。发现 levenhenstein 是一个可以做到这一点的原生函数。我有一个这样的数据帧: +----------------+---------------...
模糊比较 问答列表
作者:curios 提问时间:4/24/2023
pyspark 的新手,我需要做模糊匹配。发现 levenhenstein 是一个可以做到这一点的原生函数。我有一个这样的数据帧: +----------------+---------------...
作者:smoff 提问时间:5/3/2023
我有这个 (y) 和一个 (x),我想比较一下,看看哪个 y 最适合 x,如果只考虑删除。vectorstringsstring x = "PCOR1" y = c("PCor", "TCor", ...
作者:curios 提问时间:5/15/2023
我需要进行模糊匹配并使用 levenshtein pyspark 函数,因为它是内置的 pyspark 函数,我认为会比 udf 有速度优势。它非常慢,数据帧中大约有 341 行(最大),并且正在使用...
作者:Gustavo Schettino 提问时间:6/2/2023
根据字符串与 Python 的相似性在 Power Query 编辑器 (Power BI) 中合并两个表 请考虑以下表格: 表1 表1 名字 ... 苹果水果 A11 ... 香蕉果 B12...
作者:Lesego Zim 提问时间:6/26/2023
我无法将表连接在一起,2 列具有相似的数据,但数据不完全相同。 例: 表 1:第 1 列 =“预计今天天气会下雨” 表 2:第 2 列 =“预计今天天气和阴云会下雨” 我尝试使用以下方法加入,但...
作者:SVP 提问时间:7/6/2023
我想使用 simpful 模糊化这个 excel 文件: 使用这些模糊规则: 例如,在这种情况下,如果年龄在 50 到 59 岁之间,我需要 excel 为“五十年代”,如果 EVOL 在 10 ...
作者:user3507584 提问时间:10/24/2023
我正在尝试匹配两个包含食物描述 [ 和 ] 的字符串列。我应用了一种算法来加权词频,因此不太频繁的单词具有更多的权重,但它失败了,因为它无法识别对象。foods1foods2 例如,项目“葡萄干百吉...
作者:maruchan105 提问时间:11/2/2023
我正在尝试找到我有输入和参数的情况,我必须看看它们是否匹配,但我想考虑规范化和语音的一般变化。例如,我有一个参数是 [“feb. 19th”],用户输入是 “February 19th”,我希望能够匹...