文本挖掘报纸pdf在R?

Text Mining newspaper pdf in R?

提问人:James Rider 提问时间:8/25/2023 更新时间:8/25/2023 访问量:41

问:

我正在尝试使用以下代码从 R 中的 PDF(报纸头版)中提取所有文本:

library(pdftools)
text<-pdftools::pdf_text(pdf = "https://www.nytimes.com/images/2013/06/02/nytfrontpage/scan.pdf")
text<-gsub("\\n", " ", x1)     
text<-gsub(pattern="\\W", x1, replace=" ")
text<-stripWhitespace(x1)

但是,由于文本的组织方式和其他因素(如许多换行符),这是行不通的。这种方法会导致不同的文章和标题不匹配并拼接在一起,而不是每个文章和标题都采用连续的格式。

例如,标题“美国和中国将就黑客问题举行会谈”改为“美国和中国在叙利亚人战斗时,将举行关于黑客的宗派冲突会谈”。有没有人可能知道我如何修复代码,以使挖掘的文本采用更连续的格式?

R PDF 文本挖掘 情感分析

评论

1赞 r2evans 8/25/2023
不幸的是,我还没有找到一个 pdf 文本提取器可以遵循此类列中任何文本的逻辑流。
0赞 Mako212 8/25/2023
该库允许您根据要提取的坐标网格指定特定区域,这将允许您将其分解为不同的段。但是,您必须手动指定每个页面的区域,因此它无法在许多此类文章中扩展。tabulizer
1赞 Darren Cook 8/25/2023
我最近问了一个类似的 - 实际上是一个更容易 - 的问题,但还没有真正想出任何确定的东西,stackoverflow.com/questions/76854854/......
1赞 Darren Cook 8/25/2023
您可以训练深度学习工具(或类似的计算机视觉/OCR 工具)来检测列,这是一项相对简单的任务:比对整个页面进行 OCR 处理更容易。然后,您可以将这些列坐标提供给制表器(或者 muPDF 有类似的东西 - 尽管似乎没有 R 绑定)。我仍然感到惊讶的是,将这一切联系在一起的开源工具还不存在。

答: 暂无答案