文本挖掘 问答列表

R 文本聚类(单词属于哪个聚类)

作者:Vincent ISOZ 提问时间:8/15/2023

我从这里获取了以下文本聚类代码脚本: https://medium.com/@SAPCAI/text-clustering-with-r-an-introduction-for-data-scien...

将标记和标记转换为 Synsets

作者:Christie 提问时间:11/16/2023

我正在尝试编写一个函数来将字符串转换为语法集列表。此函数应返回文档中的语法集列表,方法是首先使用 nltk.word_tokenize 标记文档,然后使用 nltk.pos_tag 查找该标记的词性。...

创建 TDM 时出错 - “没有适用于'元'的适用于类”字符“对象的方法”

作者:yem 提问时间:10/20/2023

在创建 tm 包 TermDocumentMatrix 时,我收到错误。我使用了以下代码。 int_vc <- VCorpus(int_vc) int_vc <- tm_map(int_vc, t...

LDA 主题建模生成相同/空主题

作者:Dez Miller 提问时间:10/15/2023

我正在对两个大型文本文档(大约 500-750 KB)进行主题建模,并要求十个主题。我一直在重复两个话题。这可能是文件数量少的问题吗?或者我应该更改 alpha/beta 参数? 以下是模型部分的代...

Python NLTK 文本离散图有 y 垂直轴是向后/反向顺序

作者:drpawelo 提问时间:10/10/2023

自上个月以来,NLTK dispersion_plot似乎在我的机器上以相反的顺序排列了 y(垂直)轴。这可能与我的软件版本有关(我在学校虚拟机上)。 版本: NLTK 3.8.1 matplotl...

Python 中的文本查找和替换问题

作者:fararmaoholcezoltar 提问时间:9/29/2023

我有非常具体的功能。我有 2 个字符串,一个是代码输入的备份,第二个是通过替换空格、提取信息等步骤进行修改的(在这种情况下并不重要)。 我需要在这些字符串中找到匹配项,即使第一个字符串被修改。找到匹...

提取多列(?)python 中的 PDF

作者:user760900 提问时间:9/14/2023

我正在尝试编写一个程序来将多页 PDF 批量转换为纯文本(想想许多页面教科书)。如果我运行它,我会发现一个问题,如果特定页面有 2 列,它会读错。PyPDF2 我发现的最好的解决方案是使用 OCRm...

在 R 中将两个前缀替换为 nothing

作者:Mando 提问时间:9/8/2023

我想删除前缀为 2023 或 2022 的列。 vec = c("2022-10-16", "2022-10-23", "2022-10-30", "2022-11-06", "2023-01-01...

在语料库中提取“代表性”(不一定是最常见的)4 克的推荐方法?TF-IDF 或

作者:Vahid 提问时间:9/1/2023

我有一个包含 500 篇研究文章的语料库,我想提取前 4 克,不仅仅是基于最高频率,而是与一般研究文章类型的相关性(该类型的 4 克特征)。 推荐使用 TF-IDF,使用 Scikit-learn,...

文本挖掘报纸pdf在R?

作者:James Rider 提问时间:8/25/2023

我正在尝试使用以下代码从 R 中的 PDF(报纸头版)中提取所有文本: library(pdftools) text<-pdftools::pdf_text(pdf = "https://www.n...


共20条 当前第1页