提问人:Bidyasagar Pradhan 提问时间:2/22/2023 更新时间:2/27/2023 访问量:278
在 Pyspark 中记录链接
Record Linkage In Pyspark
问:
如何在 Pyspark ??? 中实现记录链接功能 我想在 Dataset1 名称和数据集 2 名称之间进行相似性检查。
如果有任何可用于 pyspark 的库,请帮助建议我。
我尝试使用 pyhton 的 recordlinkage 库,但它正在处理 pandas 数据帧。
答:
1赞
Nick Crews
2/27/2023
#1
Splink 是我所知道的最佳选择。
评论