对数据框中同一列中的模糊匹配项进行分组
作者:ss_0708 提问时间:4/20/2023
我正在尝试基于模糊匹配(在同一列内)对公司名称的相似名称进行分组。 但是它们既没有正确分组,我也没有在生成的数据集中拥有相同数量的行。由于一对多匹配,行数比原始数据中的行数多。 包含更多记录的输入文...
fuzzy-comparison 问答列表
作者:ss_0708 提问时间:4/20/2023
我正在尝试基于模糊匹配(在同一列内)对公司名称的相似名称进行分组。 但是它们既没有正确分组,我也没有在生成的数据集中拥有相同数量的行。由于一对多匹配,行数比原始数据中的行数多。 包含更多记录的输入文...
作者:Minura Punchihewa 提问时间:4/24/2023
我正在尝试通过PySpark对某些数据进行一些模糊匹配。为此,我正在使用该包并在 Databricks 上运行它。fuzzywuzzy 我的数据集非常简单。它存储在 CSV 文件中,包含两列:Nam...
作者:DonkeyKong 提问时间:8/17/2023
我正在尝试根据特定列在数据帧中查找“相似”行。例如,假设我们有这个数据—— +---+------+ | id| fruit| +---+------+ | 1| apple| | 2| appl|...
作者:Isolated 提问时间:9/27/2023
我在BigQuery中加载了一个用于比较名称字符串的Levenshtein UDF,并考虑其他算法,例如Double Metaphone。我不确定是否/如何在 BQ 中加载 DM 算法,也没有找到太多...