提问人:econ_grad12345 提问时间:5/22/2023 最后编辑:user438383econ_grad12345 更新时间:5/22/2023 访问量:66
记录链接匹配两个不同的数据集 Python
Record Linkage matching two different datasets Python
问:
我正在尝试使用 python 中的 recordlinkage 进行模糊匹配。我正在通过两个不同数据集中的企业名称和邮政编码进行匹配。
这是我正在使用的代码
reference_usa = pd.read_csv('all_reference_usa.csv', index_col='companyname')
oc_sample = pd.read_csv('oc_sample.csv', index_col='name')
indexer = recordlinkage.Index()
indexer.full()
candidates = indexer.index(reference_usa, oc_sample)
print(len(candidates))
这是错误。
ValueError('index of DataFrame is not unique')
我遇到的问题是我收到 DataFrame 索引的错误代码不是唯一的。 这是因为可能有一家名称相同但位置不同的公司。 是否可以忽略此规则,或者我可以为邮政编码添加额外的索引列。 理想情况下,我想按企业的名称和邮政编码匹配公司名称。
答: 暂无答案
评论