fuzzywuzzy知识经验-解网

作者：RoyalPotatoe 提问时间：3/8/2023

我有一个用户输入的汽车名称数据帧，我需要将其与另一个汽车名称数据库（数百万条记录）进行匹配并提取唯一标识符。在使用 rapidfuzz 时改进这种匹配的最佳方法是什么？ #Libraries imp...

作者：ss_0708 提问时间：4/20/2023

我正在尝试基于模糊匹配（在同一列内）对公司名称的相似名称进行分组。但是它们既没有正确分组，我也没有在生成的数据集中拥有相同数量的行。由于一对多匹配，行数比原始数据中的行数多。包含更多记录的输入文...

作者：econ_grad12345 提问时间：5/22/2023

我正在尝试使用 python 中的 recordlinkage 进行模糊匹配。我正在通过两个不同数据集中的企业名称和邮政编码进行匹配。这是我正在使用的代码 reference_usa = pd....

作者：Minura Punchihewa 提问时间：4/24/2023

我正在尝试通过PySpark对某些数据进行一些模糊匹配。为此，我正在使用该包并在 Databricks 上运行它。fuzzywuzzy 我的数据集非常简单。它存储在 CSV 文件中，包含两列：Nam...

作者：DonkeyKong 提问时间：8/17/2023

我正在尝试根据特定列在数据帧中查找“相似”行。例如，假设我们有这个数据—— +---+------+ | id| fruit| +---+------+ | 1| apple| | 2| appl|...

作者：Johan VS 提问时间：10/24/2023

我正在尝试将数据集中的列名映射到标准中的名称，标准名称位于 yaml 文件中，因此您可以根据需要更改它们。我能够进行初始自动映射，但我还需要用户能够选择他们想要手动映射的列，以防映射不正确。因此，我能...