在 Pyspark 中记录链接

Record Linkage In Pyspark

提问人:Bidyasagar Pradhan 提问时间:2/22/2023 更新时间:2/27/2023 访问量:278

问:

如何在 Pyspark ??? 中实现记录链接功能 我想在 Dataset1 名称和数据集 2 名称之间进行相似性检查。

如果有任何可用于 pyspark 的库,请帮助建议我。

我尝试使用 pyhton 的 recordlinkage 库,但它正在处理 pandas 数据帧。

pyspark 记录链接

评论


答:

1赞 Nick Crews 2/27/2023 #1

Splink 是我所知道的最佳选择。