R 文本聚类(单词属于哪个聚类)
作者:Vincent ISOZ 提问时间:8/15/2023
我从这里获取了以下文本聚类代码脚本: https://medium.com/@SAPCAI/text-clustering-with-r-an-introduction-for-data-scien...
文本挖掘 问答列表
作者:Vincent ISOZ 提问时间:8/15/2023
我从这里获取了以下文本聚类代码脚本: https://medium.com/@SAPCAI/text-clustering-with-r-an-introduction-for-data-scien...
作者:Christie 提问时间:11/16/2023
我正在尝试编写一个函数来将字符串转换为语法集列表。此函数应返回文档中的语法集列表,方法是首先使用 nltk.word_tokenize 标记文档,然后使用 nltk.pos_tag 查找该标记的词性。...
作者:yem 提问时间:10/20/2023
在创建 tm 包 TermDocumentMatrix 时,我收到错误。我使用了以下代码。 int_vc <- VCorpus(int_vc) int_vc <- tm_map(int_vc, t...
作者:Dez Miller 提问时间:10/15/2023
我正在对两个大型文本文档(大约 500-750 KB)进行主题建模,并要求十个主题。我一直在重复两个话题。这可能是文件数量少的问题吗?或者我应该更改 alpha/beta 参数? 以下是模型部分的代...
作者:drpawelo 提问时间:10/10/2023
自上个月以来,NLTK dispersion_plot似乎在我的机器上以相反的顺序排列了 y(垂直)轴。这可能与我的软件版本有关(我在学校虚拟机上)。 版本: NLTK 3.8.1 matplotl...
作者:fararmaoholcezoltar 提问时间:9/29/2023
我有非常具体的功能。我有 2 个字符串,一个是代码输入的备份,第二个是通过替换空格、提取信息等步骤进行修改的(在这种情况下并不重要)。 我需要在这些字符串中找到匹配项,即使第一个字符串被修改。找到匹...
作者:user760900 提问时间:9/14/2023
我正在尝试编写一个程序来将多页 PDF 批量转换为纯文本(想想许多页面教科书)。如果我运行它,我会发现一个问题,如果特定页面有 2 列,它会读错。PyPDF2 我发现的最好的解决方案是使用 OCRm...
作者:Mando 提问时间:9/8/2023
我想删除前缀为 2023 或 2022 的列。 vec = c("2022-10-16", "2022-10-23", "2022-10-30", "2022-11-06", "2023-01-01...
作者:Vahid 提问时间:9/1/2023
我有一个包含 500 篇研究文章的语料库,我想提取前 4 克,不仅仅是基于最高频率,而是与一般研究文章类型的相关性(该类型的 4 克特征)。 推荐使用 TF-IDF,使用 Scikit-learn,...
作者:James Rider 提问时间:8/25/2023
我正在尝试使用以下代码从 R 中的 PDF(报纸头版)中提取所有文本: library(pdftools) text<-pdftools::pdf_text(pdf = "https://www.n...