如何测量字符串之间的相似性？-解网

问：

我有一堆名字，我想获得唯一的名字。但是，由于拼写错误和数据不一致，名称可能会写错。我正在寻找一种方法来检查字符串向量，如果其中两个是相似的。

例如：

pres <- c(" Obama, B.","Bush, G.W.","Obama, B.H.","Clinton, W.J.")

我想找到它并且非常相似。有没有办法做到这一点？" Obama, B.""Obama, B.H."

正则表达式字符串 R-FAQ

若要获取唯一名称，请考虑拼写错误和不一致，可以将每个字符串与所有以前的字符串进行比较。然后，如果有类似的，请将其删除。我创建了一个执行此操作的函数。然后依次应用于向量的所有元素。keepunique()keepunique()Reduce()

keepunique <-  function(previousones, x){
    if(any(adist(x, previousones)<5)){
        x <- NULL
    }
    return(c(previousones, x))
}
Reduce(keepunique, pres)
# [1] " Obama, B."    "Bush, G.W."    "Clinton, W.J."

上一个：测试字符串中是否包含字符

下一个：如何从字符串中删除所有空格？

如何测量字符串之间的相似性？

How to measure similarity between strings?

评论