记录链接匹配两个不同的数据集 Python

Record Linkage matching two different datasets Python

提问人:econ_grad12345 提问时间:5/22/2023 最后编辑:user438383econ_grad12345 更新时间:5/22/2023 访问量:66

问:

我正在尝试使用 python 中的 recordlinkage 进行模糊匹配。我正在通过两个不同数据集中的企业名称和邮政编码进行匹配。

这是我正在使用的代码

reference_usa = pd.read_csv('all_reference_usa.csv', index_col='companyname')
oc_sample = pd.read_csv('oc_sample.csv', index_col='name')

indexer = recordlinkage.Index()
indexer.full()

candidates = indexer.index(reference_usa, oc_sample)
print(len(candidates))

这是错误。

ValueError('index of DataFrame is not unique')

我遇到的问题是我收到 DataFrame 索引的错误代码不是唯一的。 这是因为可能有一家名称相同但位置不同的公司。 是否可以忽略此规则,或者我可以为邮政编码添加额外的索引列。 理想情况下,我想按企业的名称和邮政编码匹配公司名称。

python pandas fuzzywuzzy 记录链接

评论


答: 暂无答案