提问人:James Rider 提问时间:8/25/2023 更新时间:8/25/2023 访问量:41
文本挖掘报纸pdf在R?
Text Mining newspaper pdf in R?
问:
我正在尝试使用以下代码从 R 中的 PDF(报纸头版)中提取所有文本:
library(pdftools)
text<-pdftools::pdf_text(pdf = "https://www.nytimes.com/images/2013/06/02/nytfrontpage/scan.pdf")
text<-gsub("\\n", " ", x1)
text<-gsub(pattern="\\W", x1, replace=" ")
text<-stripWhitespace(x1)
但是,由于文本的组织方式和其他因素(如许多换行符),这是行不通的。这种方法会导致不同的文章和标题不匹配并拼接在一起,而不是每个文章和标题都采用连续的格式。
例如,标题“美国和中国将就黑客问题举行会谈”改为“美国和中国在叙利亚人战斗时,将举行关于黑客的宗派冲突会谈”。有没有人可能知道我如何修复代码,以使挖掘的文本采用更连续的格式?
答: 暂无答案
评论
tabulizer