模糊比较知识经验-解网

作者：curios 提问时间：4/24/2023

pyspark 的新手，我需要做模糊匹配。发现 levenhenstein 是一个可以做到这一点的原生函数。我有一个这样的数据帧： +----------------+---------------...

作者：smoff 提问时间：5/3/2023

我有这个（y）和一个（x），我想比较一下，看看哪个 y 最适合 x，如果只考虑删除。vectorstringsstring x = "PCOR1" y = c("PCor", "TCor", ...

作者：curios 提问时间：5/15/2023

我需要进行模糊匹配并使用 levenshtein pyspark 函数，因为它是内置的 pyspark 函数，我认为会比 udf 有速度优势。它非常慢，数据帧中大约有 341 行（最大），并且正在使用...

作者：Gustavo Schettino 提问时间：6/2/2023

根据字符串与 Python 的相似性在 Power Query 编辑器（Power BI）中合并两个表请考虑以下表格：表1 表1 名字 ... 苹果水果 A11 ... 香蕉果 B12...

作者：Lesego Zim 提问时间：6/26/2023

我无法将表连接在一起，2 列具有相似的数据，但数据不完全相同。例：表 1：第 1 列 =“预计今天天气会下雨” 表 2：第 2 列 =“预计今天天气和阴云会下雨” 我尝试使用以下方法加入，但...

作者：SVP 提问时间：7/6/2023

我想使用 simpful 模糊化这个 excel 文件：使用这些模糊规则：例如，在这种情况下，如果年龄在 50 到 59 岁之间，我需要 excel 为“五十年代”，如果 EVOL 在 10 ...

作者：user3507584 提问时间：10/24/2023

我正在尝试匹配两个包含食物描述 [ 和 ] 的字符串列。我应用了一种算法来加权词频，因此不太频繁的单词具有更多的权重，但它失败了，因为它无法识别对象。foods1foods2 例如，项目“葡萄干百吉...

作者：maruchan105 提问时间：11/2/2023

我正在尝试找到我有输入和参数的情况，我必须看看它们是否匹配，但我想考虑规范化和语音的一般变化。例如，我有一个参数是 [“feb. 19th”]，用户输入是 “February 19th”，我希望能够匹...