挖掘 问答列表

文本挖掘报纸pdf在R?

作者:James Rider 提问时间:8/25/2023

我正在尝试使用以下代码从 R 中的 PDF(报纸头版)中提取所有文本: library(pdftools) text<-pdftools::pdf_text(pdf = "https://www.n...

根据 R 中现有列中的条件创建一个新列?

作者:Ahsk 提问时间:2/25/2023

我每天都有天气记录。我需要根据现有列和 创建新列。对于每年,我都需要计算温度/湿度/风速值值的每个唯一组合的暴露持续时间。例如,我想知道 2006 年记录了多少天mean_ws?mean_rhmean...

在 R 中将两个前缀替换为 nothing

作者:Mando 提问时间:9/8/2023

我想删除前缀为 2023 或 2022 的列。 vec = c("2022-10-16", "2022-10-23", "2022-10-30", "2022-11-06", "2023-01-01...

提取多列(?)python 中的 PDF

作者:user760900 提问时间:9/14/2023

我正在尝试编写一个程序来将多页 PDF 批量转换为纯文本(想想许多页面教科书)。如果我运行它,我会发现一个问题,如果特定页面有 2 列,它会读错。PyPDF2 我发现的最好的解决方案是使用 OCRm...

Python 中的文本查找和替换问题

作者:fararmaoholcezoltar 提问时间:9/29/2023

我有非常具体的功能。我有 2 个字符串,一个是代码输入的备份,第二个是通过替换空格、提取信息等步骤进行修改的(在这种情况下并不重要)。 我需要在这些字符串中找到匹配项,即使第一个字符串被修改。找到匹...

Python NLTK 文本离散图有 y 垂直轴是向后/反向顺序

作者:drpawelo 提问时间:10/10/2023

自上个月以来,NLTK dispersion_plot似乎在我的机器上以相反的顺序排列了 y(垂直)轴。这可能与我的软件版本有关(我在学校虚拟机上)。 版本: NLTK 3.8.1 matplotl...

LDA 主题建模生成相同/空主题

作者:Dez Miller 提问时间:10/15/2023

我正在对两个大型文本文档(大约 500-750 KB)进行主题建模,并要求十个主题。我一直在重复两个话题。这可能是文件数量少的问题吗?或者我应该更改 alpha/beta 参数? 以下是模型部分的代...

R 代码警告:要替换的项目数不是替换长度的倍数

作者:JTruant 提问时间:10/18/2023

从鸢尾花数据集中,我创建了以下混淆矩阵: 在尝试使用一对多策略执行多类分类时,我提出了以下 R 代码: mtrx <- matrix(c(10,0,0,0,10,1,0,0,9), ncol = ...

创建 TDM 时出错 - “没有适用于'元'的适用于类”字符“对象的方法”

作者:yem 提问时间:10/20/2023

在创建 tm 包 TermDocumentMatrix 时,我收到错误。我使用了以下代码。 int_vc <- VCorpus(int_vc) int_vc <- tm_map(int_vc, t...

我正在尝试为集合向量创建一个累加器函数。但是我总是得到奇怪的结果

作者:Braden Christopher 提问时间:10/25/2023

基本上,我有一个集合向量。我想根据条件合并集合(您可以在 if 语句中看到此条件)。可以合并两个以上的集合。下面是一个示例数据集: [{:name "corner", :matched-shape ...


共41条 当前第2页