主题分布之间的距离度量,考虑主题之间的相关性 [已关闭]

Distance measure between topic distributions accounting for correlation between topics [closed]

提问人:mmaeh 提问时间:11/16/2023 更新时间:11/16/2023 访问量:12

问:


想改进这个问题吗?更新问题,以便可以通过编辑这篇文章用事实和引文来回答。

7小时前关闭。

我已经在一系列报纸文章上训练了一个主题模型,我手动识别了这些文章作为基准。假设主题模型标识了三个主题,如政治、经济和体育。接下来,我在一组不同的报纸文章上评估该模型。现在,对于“培训”和“评估”集中的所有文章,我分布在三个已确定的主题中。

现在,我想计算训练中的所有文章与评估集中所有文章之间的相似性度量。然而,据我了解,最常用的度量,如余弦相似度,并没有考虑主题之间的相关性。例如,政治和经济比政治和体育更接近替代品。我的想法是根据训练数据中的文章主题分布计算相关矩阵,以计算加权距离度量。

我的第一个问题是,解释这种相关性是否有意义。第二,有人见过这样的措施吗?

我已经计算了相关矩阵并使用了马氏距离,但我还没有找到参考。

NLP BERT语言模型 主题建模

评论

0赞 Adesoji Alu 11/16/2023
检查一下: machinelearningplus.com/statistics/mahalanobis-distance .马氏距离是欧几里得距离的推广,它考虑了变量之间的相关性。这意味着,对于主题分布更相似的文章,即使分布不完全相同,马氏距离也会更小。

答: 暂无答案