提问人:mmaeh 提问时间:11/16/2023 更新时间:11/16/2023 访问量:12
主题分布之间的距离度量,考虑主题之间的相关性 [已关闭]
Distance measure between topic distributions accounting for correlation between topics [closed]
问:
我已经在一系列报纸文章上训练了一个主题模型,我手动识别了这些文章作为基准。假设主题模型标识了三个主题,如政治、经济和体育。接下来,我在一组不同的报纸文章上评估该模型。现在,对于“培训”和“评估”集中的所有文章,我分布在三个已确定的主题中。
现在,我想计算训练中的所有文章与评估集中所有文章之间的相似性度量。然而,据我了解,最常用的度量,如余弦相似度,并没有考虑主题之间的相关性。例如,政治和经济比政治和体育更接近替代品。我的想法是根据训练数据中的文章主题分布计算相关矩阵,以计算加权距离度量。
我的第一个问题是,解释这种相关性是否有意义。第二,有人见过这样的措施吗?
我已经计算了相关矩阵并使用了马氏距离,但我还没有找到参考。
答: 暂无答案
评论