修复 fuzzyjoin 错误消息:矢量内存耗尽

Fixing fuzzyjoin error message: vector memory exhausted

提问人:yankees_fan 提问时间:4/14/2023 最后编辑:Jon Springyankees_fan 更新时间:4/14/2023 访问量:140

问:

我正在尝试通过库模糊连接中的stringdist_left_join函数使用模糊匹配连接两个数据集,但我不断收到错误消息“错误:矢量内存耗尽(达到限制?有谁知道为什么会发生这种情况?我不会说这两个数据集都非常大。

我期望将两个数据集联接起来,但出现错误

R stringdist 模糊连接

评论

1赞 Jon Spring 4/14/2023
可能是重复的问题。stackoverflow.com/questions/59250028/....stackoverflow.com/questions/69930176/....stackoverflow.com/questions/64369240/....stackoverflow.com/questions/64321242/......
1赞 Jon Spring 4/14/2023
我认为简短的回答是,对于(稍微弥补一下)超过 30k 行的表来说,这不是很有效,因为它依赖于 A 的所有行到 B 的所有行的笛卡尔连接,这可以很快超过可用内存。(对于 30k x 30k,即要分析的 1B 行)有关一些建议,请参阅上面的先前答案。fuzzyjoin
0赞 Community 4/14/2023
请提供足够的代码,以便其他人可以更好地理解或重现问题。

答: 暂无答案