提问人:user3585510 提问时间:10/17/2023 更新时间:10/17/2023 访问量:26
创建用于字符串匹配的嵌入
Create embeddings for string matching
问:
我有 4 个公司名称列表。让我们以谷歌公司为例。在列表 A 中,Google 被写成 Google Ltd,在第二个列表中,它被写成 Google Inc(扩展等),第 3 个包含 Beta Gogl(拼写错误等),第 4 个包含 ABC Googl。我想为 4 个列表中的所有名称创建嵌入(向量索引/向量存储)。
当一个新词(公司名称)出现时,我会生成一个嵌入并找到最接近它的匹配项。
一种方法是不使用嵌入,而是创建一些编辑距离(Levensthein 等),然后找到最相似的距离。问题是,如果我在每个列表中有 1000 个名称,那么每次我想要类似的名称时都会花费大量计算(假设字符串匹配每天完成 1000 次)
所以我想创建一些嵌入向量存储,这样我就可以快速找到相似性。
GloVe 可以成为选项,但我不确定它是否仅适用于名称,(适用于句子)。
任何其他方法建议也很棒。
答: 暂无答案
评论