在语料库中提取“代表性”(不一定是最常见的)4 克的推荐方法?TF-IDF 或

Recommended way to extract "the representative" (not necessarily most frequent) 4-grams in a corpus? TF-IDF or

提问人:Vahid 提问时间:9/1/2023 更新时间:9/1/2023 访问量:17

问:

我有一个包含 500 篇研究文章的语料库,我想提取前 4 克,不仅仅是基于最高频率,而是与一般研究文章类型的相关性该类型的 4 克特征)。

推荐使用 TF-IDF,使用 Scikit-learn,我根据 TF-IDF 分数获得了 4 克的列表。

问题TF-IDF 分数高意味着 4 克出现在较少的文章中。如果这些 4 克出现在较少的文章中,它们如何代表研究文章类型?您还有什么其他建议吗?

谢谢。

NLP 文本挖掘 TF-IDF 语料库

评论


答: 暂无答案