计算多个文档的组合嵌入 [已关闭]-解网

问：

闭。这个问题与编程或软件开发无关。它目前不接受答案。

这个问题似乎与特定的编程问题、软件算法或程序员主要使用的软件工具无关。如果您认为该问题在另一个 Stack Exchange 站点上是主题，您可以发表评论以解释在哪里可以回答该问题。

昨天关闭。

改进此问题

我正在尝试创建一个自定义文档分类器，该分类器可用于将一个文档分类为一个或多个文档类别。我想通过使用嵌入模型来计算与某些类别（即科学、数学、历史）相关的文档的嵌入来做到这一点，然后有某种方法可以将嵌入聚类在一起。

接下来，我想计算一个全新文档的嵌入，并将这个新文档的嵌入与每个聚类中的嵌入进行比较（计算与科学聚类、数学聚类、历史聚类等的余弦相似度）。然后，使用某个阈值，查看新文档可能属于哪些类别。

我知道现有的聚类模型就是这样做的，但是我正在尝试制作自己的模型，这样我就可以尝试各种嵌入模型/有更多的自由。

我正在努力寻找一种方法来创建跨多个文档的嵌入集群，然后与单个新文档进行比较时，可以生成相似性分数。关于如何处理这个/什么模型看起来不错的任何建议？

python 机器学习 nlp 词嵌入余弦相似度

您可以选择嵌入模型：对于文档嵌入，BERT、Doc2Vec 或 Sentence Transformer 等模型可能很有效。此外，您还可以为每个文档类别生成嵌入：此外，对于每个类别（如科学、数学、历史），您首先需要一组具有代表性的文档。创建聚类表示：为类别中的每个文档嵌入后，需要为整个类别创建一个代表性向量。这可以通过多种方式完成：平均嵌入：取类别中所有嵌入的平均值。

0赞 Eran H. 11/16/2023

开始阅读有关如何对嵌入进行聚类的好地方是 scikit-learn scikit-learn.org/stable/modules/clustering.html#

答： 暂无答案

上一个：微调不带标签的 Huggingface 模型

下一个：是否可以使 UMAP for HDBScan 聚类的结果更加一致？

计算多个文档的组合嵌入 [已关闭]

Calculate combined embedding of multiple documents [closed]

评论