提问人:Vahid 提问时间:9/1/2023 更新时间:9/1/2023 访问量:17
在语料库中提取“代表性”(不一定是最常见的)4 克的推荐方法?TF-IDF 或
Recommended way to extract "the representative" (not necessarily most frequent) 4-grams in a corpus? TF-IDF or
问:
我有一个包含 500 篇研究文章的语料库,我想提取前 4 克,不仅仅是基于最高频率,而是与一般研究文章类型的相关性(该类型的 4 克特征)。
推荐使用 TF-IDF,使用 Scikit-learn,我根据 TF-IDF 分数获得了 4 克的列表。
问题:TF-IDF 分数高意味着 4 克出现在较少的文章中。如果这些 4 克出现在较少的文章中,它们如何代表研究文章类型?您还有什么其他建议吗?
谢谢。
答: 暂无答案
下一个:文本挖掘报纸pdf在R?
评论