在 R 中抓取新闻标题的问题

Problem with scraping news headlines in R

提问人:Raghav Goyal 提问时间:8/5/2020 最后编辑:r2evansRaghav Goyal 更新时间:8/5/2020 访问量:186

问:

我正在尝试在 R 中抓取新闻头条。这是我编写的示例代码。但是,它给了我一个空集。有人能告诉我哪里出了问题吗?

library(tidyverse)
library(stringr)
library(rvest)

news_url1 <- "https://www.washingtonpost.com/newssearch/?query=economy&sort=Relevance&datefilter=All%20Since%202005&startat=0#top"
news_html1 <- read_html(as.character(news_url1))
news_html1 %>% html_nodes(".pb-feed-headline")%>% html_text()

r 网页抓取 html 解析 rvest

评论

3赞 MrFlick 8/5/2020
请注意,您在 Web 浏览器中看到的内容不一定与将要找到的内容相同。许多网站在页面加载后使用 javascript 更改其内容,并且无法执行该 javascript。也许可以尝试像 RSelenium 这样的包来使用 R 来控制 Web 浏览器。此外,有些页面使用不同的方法来防止抓取。read_htmlread_html
2赞 r2evans 8/5/2020
另一种技术(可以节省很多对时间非常敏感的基于硒的解决方案的挫败感)是调试浏览器窗口(例如,firefox、chrome)并查看所有其他网络连接。在某些网站上,您可以找到不需要解析的直接 URL,提示底层 API。(对于其他网站,它同样晦涩难懂。我的观点是,有时 javascript 加载的内容同样可发现并且能够被抓取,您只需要知道要跟踪哪个 href。

答: 暂无答案