在 Pyspark 中记录链接
作者:Bidyasagar Pradhan 提问时间:2/22/2023
如何在 Pyspark ??? 中实现记录链接功能 我想在 Dataset1 名称和数据集 2 名称之间进行相似性检查。 如果有任何可用于 pyspark 的库,请帮助建议我。 我尝试使用 pyh...
记录链接 问答列表
作者:Bidyasagar Pradhan 提问时间:2/22/2023
如何在 Pyspark ??? 中实现记录链接功能 我想在 Dataset1 名称和数据集 2 名称之间进行相似性检查。 如果有任何可用于 pyspark 的库,请帮助建议我。 我尝试使用 pyh...
作者:lnathan 提问时间:2/20/2023
我正在使用重复数据删除包,但无法理解地名词典和链接器之间的区别。我已经阅读了文档,但对我来说似乎有点不清楚。 我已经能够使用重复数据删除器类计算分辨率,但现在我需要处理流数据。具体来说,我需要将传入...
作者:Roshana 提问时间:3/30/2023
我正在尝试使用 recordlinkage 文档中的示例代码对记录链接数据使用 RandomForestClassifier,但导入 from recordlinkage.adapters impo...
作者:user22 提问时间:4/14/2023
尝试将自定义函数添加到 Python 的记录链接库中,但得到 .在自定义函数中,我只计算两个字符串token_set_ratio。KeyError: 0 import recordlinkage ...
作者:econ_grad12345 提问时间:5/22/2023
我正在尝试使用 python 中的 recordlinkage 进行模糊匹配。我正在通过两个不同数据集中的企业名称和邮政编码进行匹配。 这是我正在使用的代码 reference_usa = pd....
作者:econ_grad12345 提问时间:5/22/2023
我正在尝试使用记录链接通过模糊匹配来合并数据集。我确信这两个数据集中都没有重复的唯一 ID。但是,我得到的错误是没有潜在的候选人。如何修复此错误? 这是我的代码 import pandas as ...
作者:newt_coding 提问时间:5/22/2023
我正在使用 python 记录链接,我正在尝试通过公司名称和状态的模糊匹配来合并两个 csv 文件。 运行代码时,我收到一条关于找不到标签的 KeyError 消息,我不明白我需要做什么才能运行代码...
作者:newt_coding 提问时间:5/27/2023
我的输出不会导出到 excel。我不确定我的 python 脚本中缺少什么。我已经安装了 openpyx1 软件包。 该脚本在我合并两个不同的数据集但无法访问输出的情况下工作。 import pa...
作者:Soyoko Umeno 提问时间:6/8/2023
我正在使用 Python 的名称匹配工具 recordlinkage 有谁知道如何从这个算法中检索比较器值? 例如,在运行以下代码时,按照此链接 https://pbpython.com/reco...
作者:sparklink 提问时间:9/7/2023
这个问题在这里已经有答案了: 为直接和间接连接的值创建组索引 (1 个答案) 3个月前关闭。 我有一个大数据帧,看起来像这样: 编号 x 1 123 2 123 2 125 3 125 4 200...