计算多个文档的组合嵌入 [已关闭]

Calculate combined embedding of multiple documents [closed]

提问人:Kevin 提问时间:11/14/2023 最后编辑:desertnautKevin 更新时间:11/15/2023 访问量:34

问:


这个问题似乎与特定的编程问题、软件算法或程序员主要使用的软件工具无关。如果您认为该问题在另一个 Stack Exchange 站点上是主题,您可以发表评论以解释在哪里可以回答该问题。

昨天关闭。

我正在尝试创建一个自定义文档分类器,该分类器可用于将一个文档分类为一个或多个文档类别。我想通过使用嵌入模型来计算与某些类别(即科学、数学、历史)相关的文档的嵌入来做到这一点,然后有某种方法可以将嵌入聚类在一起。

接下来,我想计算一个全新文档的嵌入,并将这个新文档的嵌入与每个聚类中的嵌入进行比较(计算与科学聚类、数学聚类、历史聚类等的余弦相似度)。然后,使用某个阈值,查看新文档可能属于哪些类别。

我知道现有的聚类模型就是这样做的,但是我正在尝试制作自己的模型,这样我就可以尝试各种嵌入模型/有更多的自由。

我正在努力寻找一种方法来创建跨多个文档的嵌入集群,然后与单个新文档进行比较时,可以生成相似性分数。关于如何处理这个/什么模型看起来不错的任何建议?

python 机器学习 nlp 词嵌入 余弦相似度

评论

0赞 Adesoji Alu 11/14/2023
您可以选择嵌入模型:对于文档嵌入,BERT、Doc2Vec 或 Sentence Transformer 等模型可能很有效。此外,您还可以为每个文档类别生成嵌入:此外,对于每个类别(如科学、数学、历史),您首先需要一组具有代表性的文档。创建聚类表示:为类别中的每个文档嵌入后,需要为整个类别创建一个代表性向量。这可以通过多种方式完成: 平均嵌入:取类别中所有嵌入的平均值。
0赞 Eran H. 11/16/2023
开始阅读有关如何对嵌入进行聚类的好地方是 scikit-learn scikit-learn.org/stable/modules/clustering.html#

答: 暂无答案