文本挖掘报纸pdf在R？-解网

问：

我正在尝试使用以下代码从 R 中的 PDF（报纸头版）中提取所有文本：

library(pdftools)
text<-pdftools::pdf_text(pdf = "https://www.nytimes.com/images/2013/06/02/nytfrontpage/scan.pdf")
text<-gsub("\\n", " ", x1)     
text<-gsub(pattern="\\W", x1, replace=" ")
text<-stripWhitespace(x1)

但是，由于文本的组织方式和其他因素（如许多换行符），这是行不通的。这种方法会导致不同的文章和标题不匹配并拼接在一起，而不是每个文章和标题都采用连续的格式。

例如，标题“美国和中国将就黑客问题举行会谈”改为“美国和中国在叙利亚人战斗时，将举行关于黑客的宗派冲突会谈”。有没有人可能知道我如何修复代码，以使挖掘的文本采用更连续的格式？

R PDF 文本挖掘情感分析

您可以训练深度学习工具（或类似的计算机视觉/OCR 工具）来检测列，这是一项相对简单的任务：比对整个页面进行 OCR 处理更容易。然后，您可以将这些列坐标提供给制表器（或者 muPDF 有类似的东西 - 尽管似乎没有 R 绑定）。我仍然感到惊讶的是，将这一切联系在一起的开源工具还不存在。

答： 暂无答案

上一个：在语料库中提取“代表性”（不一定是最常见的）4 克的推荐方法？TF-IDF 或

下一个：R 文本聚类（单词属于哪个聚类）

文本挖掘报纸pdf在R？

Text Mining newspaper pdf in R?

评论