提问人:Kevin 提问时间:11/14/2023 最后编辑:desertnautKevin 更新时间:11/15/2023 访问量:34
计算多个文档的组合嵌入 [已关闭]
Calculate combined embedding of multiple documents [closed]
问:
我正在尝试创建一个自定义文档分类器,该分类器可用于将一个文档分类为一个或多个文档类别。我想通过使用嵌入模型来计算与某些类别(即科学、数学、历史)相关的文档的嵌入来做到这一点,然后有某种方法可以将嵌入聚类在一起。
接下来,我想计算一个全新文档的嵌入,并将这个新文档的嵌入与每个聚类中的嵌入进行比较(计算与科学聚类、数学聚类、历史聚类等的余弦相似度)。然后,使用某个阈值,查看新文档可能属于哪些类别。
我知道现有的聚类模型就是这样做的,但是我正在尝试制作自己的模型,这样我就可以尝试各种嵌入模型/有更多的自由。
我正在努力寻找一种方法来创建跨多个文档的嵌入集群,然后与单个新文档进行比较时,可以生成相似性分数。关于如何处理这个/什么模型看起来不错的任何建议?
答: 暂无答案
评论