文本挖掘知识经验-解网

作者：Vincent ISOZ 提问时间：8/15/2023

我从这里获取了以下文本聚类代码脚本： https://medium.com/@SAPCAI/text-clustering-with-r-an-introduction-for-data-scien...

作者：Christie 提问时间：11/16/2023

我正在尝试编写一个函数来将字符串转换为语法集列表。此函数应返回文档中的语法集列表，方法是首先使用 nltk.word_tokenize 标记文档，然后使用 nltk.pos_tag 查找该标记的词性。...

作者：yem 提问时间：10/20/2023

在创建 tm 包 TermDocumentMatrix 时，我收到错误。我使用了以下代码。 int_vc <- VCorpus(int_vc) int_vc <- tm_map(int_vc, t...

作者：Dez Miller 提问时间：10/15/2023

我正在对两个大型文本文档（大约 500-750 KB）进行主题建模，并要求十个主题。我一直在重复两个话题。这可能是文件数量少的问题吗？或者我应该更改 alpha/beta 参数？以下是模型部分的代...

作者：drpawelo 提问时间：10/10/2023

自上个月以来，NLTK dispersion_plot似乎在我的机器上以相反的顺序排列了 y（垂直）轴。这可能与我的软件版本有关（我在学校虚拟机上）。版本： NLTK 3.8.1 matplotl...

作者：fararmaoholcezoltar 提问时间：9/29/2023

我有非常具体的功能。我有 2 个字符串，一个是代码输入的备份，第二个是通过替换空格、提取信息等步骤进行修改的（在这种情况下并不重要）。我需要在这些字符串中找到匹配项，即使第一个字符串被修改。找到匹...

作者：user760900 提问时间：9/14/2023

我正在尝试编写一个程序来将多页 PDF 批量转换为纯文本（想想许多页面教科书）。如果我运行它，我会发现一个问题，如果特定页面有 2 列，它会读错。PyPDF2 我发现的最好的解决方案是使用 OCRm...

作者：Mando 提问时间：9/8/2023

我想删除前缀为 2023 或 2022 的列。 vec = c("2022-10-16", "2022-10-23", "2022-10-30", "2022-11-06", "2023-01-01...

作者：Vahid 提问时间：9/1/2023

我有一个包含 500 篇研究文章的语料库，我想提取前 4 克，不仅仅是基于最高频率，而是与一般研究文章类型的相关性（该类型的 4 克特征）。推荐使用 TF-IDF，使用 Scikit-learn，...

作者：James Rider 提问时间：8/25/2023

我正在尝试使用以下代码从 R 中的 PDF（报纸头版）中提取所有文本： library(pdftools) text<-pdftools::pdf_text(pdf = "https://www.n...