如何大规模应用实体名称匹配 (rapidfuzz)
作者:RoyalPotatoe 提问时间:3/8/2023
我有一个用户输入的汽车名称数据帧,我需要将其与另一个汽车名称数据库(数百万条记录)进行匹配并提取唯一标识符。在使用 rapidfuzz 时改进这种匹配的最佳方法是什么? #Libraries imp...
fuzzywuzzy 问答列表
作者:RoyalPotatoe 提问时间:3/8/2023
我有一个用户输入的汽车名称数据帧,我需要将其与另一个汽车名称数据库(数百万条记录)进行匹配并提取唯一标识符。在使用 rapidfuzz 时改进这种匹配的最佳方法是什么? #Libraries imp...
作者:ss_0708 提问时间:4/20/2023
我正在尝试基于模糊匹配(在同一列内)对公司名称的相似名称进行分组。 但是它们既没有正确分组,我也没有在生成的数据集中拥有相同数量的行。由于一对多匹配,行数比原始数据中的行数多。 包含更多记录的输入文...
作者:econ_grad12345 提问时间:5/22/2023
我正在尝试使用 python 中的 recordlinkage 进行模糊匹配。我正在通过两个不同数据集中的企业名称和邮政编码进行匹配。 这是我正在使用的代码 reference_usa = pd....
作者:Minura Punchihewa 提问时间:4/24/2023
我正在尝试通过PySpark对某些数据进行一些模糊匹配。为此,我正在使用该包并在 Databricks 上运行它。fuzzywuzzy 我的数据集非常简单。它存储在 CSV 文件中,包含两列:Nam...
作者:DonkeyKong 提问时间:8/17/2023
我正在尝试根据特定列在数据帧中查找“相似”行。例如,假设我们有这个数据—— +---+------+ | id| fruit| +---+------+ | 1| apple| | 2| appl|...
作者:Johan VS 提问时间:10/24/2023
我正在尝试将数据集中的列名映射到标准中的名称,标准名称位于 yaml 文件中,因此您可以根据需要更改它们。我能够进行初始自动映射,但我还需要用户能够选择他们想要手动映射的列,以防映射不正确。因此,我能...