stringdist_join不合并数据

stringdist_join not merging data

提问人:bandcar 提问时间:2/6/2023 更新时间:2/6/2023 访问量:39

问:

我有三个数据框需要合并。每个数据框中的竞争对手名称之间存在一些细微的差异。例如,一个名字的中间名和姓氏之间可能没有空格,而另一个数据框可以正确显示人员姓名(例如:Sarah JaneDoe 与 Sarah Jane Doe)。因此,我使用了模糊连接包。当我运行下面的代码时,它只是继续运行。我不知道如何解决这个问题。

你能确定我哪里出错了吗?

library(fuzzyjoin)
library(tidyverse)

temp1 = read.csv('https://raw.githubusercontent.com/bandcar/bjj/main/temp1.csv')

stats=read.csv('https://raw.githubusercontent.com/bandcar/bjj/main/stats.csv')

winners = read.csv('https://raw.githubusercontent.com/bandcar/bjj/main/winners.csv')


#perform fuzzy matching full join
star = stringdist_join(temp1, stats, 
                by='Name', #match based on Name
                mode='full', #use full join
                method = "jw", #use jw distance metric
                max_dist=99, 
                distance_col='dist') %>%
  group_by(Name.x)

r 合并 比较模糊 连接

评论

0赞 robertdj 2/6/2023
您的代码在我的机器上也运行了相当长一段时间,但这可能是因为当您进行联接时有超过 5000 万行。starfull
0赞 bandcar 2/6/2023
它真的完成了合并吗?它只是一直在为我运行。我打断了它并尝试左连接,但这是同一个故事。
0赞 robertdj 2/6/2023
是的,几分钟后。首先尝试内部连接。

答: 暂无答案