创建用于字符串匹配的嵌入

Create embeddings for string matching

提问人:user3585510 提问时间:10/17/2023 更新时间:10/17/2023 访问量:26

问:

我有 4 个公司名称列表。让我们以谷歌公司为例。在列表 A 中,Google 被写成 Google Ltd,在第二个列表中,它被写成 Google Inc(扩展等),第 3 个包含 Beta Gogl(拼写错误等),第 4 个包含 ABC Googl。我想为 4 个列表中的所有名称创建嵌入(向量索引/向量存储)。

当一个新词(公司名称)出现时,我会生成一个嵌入并找到最接近它的匹配项。

一种方法是不使用嵌入,而是创建一些编辑距离(Levensthein 等),然后找到最相似的距离。问题是,如果我在每个列表中有 1000 个名称,那么每次我想要类似的名称时都会花费大量计算(假设字符串匹配每天完成 1000 次)

所以我想创建一些嵌入向量存储,这样我就可以快速找到相似性。

GloVe 可以成为选项,但我不确定它是否仅适用于名称,(适用于句子)。

任何其他方法建议也很棒。

Stanford-NLP 字符串匹配 嵌入 levenshtein-distance

评论

0赞 Damodhar 10/17/2023
为什么要生成嵌入并找到最接近的匹配项?,如果你创建嵌入并存储它将以相似的方式排列你的单词。你能按顺序定义你的问题吗

答: 暂无答案