在语料库中提取“代表性”(不一定是最常见的)4 克的推荐方法?TF-IDF 或
作者:Vahid 提问时间:9/1/2023
我有一个包含 500 篇研究文章的语料库,我想提取前 4 克,不仅仅是基于最高频率,而是与一般研究文章类型的相关性(该类型的 4 克特征)。 推荐使用 TF-IDF,使用 Scikit-learn,...
TF-IDF 问答列表
作者:Vahid 提问时间:9/1/2023
我有一个包含 500 篇研究文章的语料库,我想提取前 4 克,不仅仅是基于最高频率,而是与一般研究文章类型的相关性(该类型的 4 克特征)。 推荐使用 TF-IDF,使用 Scikit-learn,...
作者:ningawater 提问时间:11/1/2023
我提前道歉,我是 R 的新手,并使用我学校的代码作为参考。我不知道为什么当我密切关注我给出的示例时,TF-IDF 值的最大值可能高于 1,因为我已经规范化了我的值。我不确定为什么会这样。感谢任何帮助,...