在 R 中抓取新闻标题的问题-解网

问：

我正在尝试在 R 中抓取新闻头条。这是我编写的示例代码。但是，它给了我一个空集。有人能告诉我哪里出了问题吗？

library(tidyverse)
library(stringr)
library(rvest)

news_url1 <- "https://www.washingtonpost.com/newssearch/?query=economy&sort=Relevance&datefilter=All%20Since%202005&startat=0#top"
news_html1 <- read_html(as.character(news_url1))
news_html1 %>% html_nodes(".pb-feed-headline")%>% html_text()

r 网页抓取 html 解析 rvest

请注意，您在 Web 浏览器中看到的内容不一定与将要找到的内容相同。许多网站在页面加载后使用 javascript 更改其内容，并且无法执行该 javascript。也许可以尝试像 RSelenium 这样的包来使用 R 来控制 Web 浏览器。此外，有些页面使用不同的方法来防止抓取。read_htmlread_html

2赞 r2evans 8/5/2020

另一种技术（可以节省很多对时间非常敏感的基于硒的解决方案的挫败感）是调试浏览器窗口（例如，firefox、chrome）并查看所有其他网络连接。在某些网站上，您可以找到不需要解析的直接 URL，提示底层 API。（对于其他网站，它同样晦涩难懂。我的观点是，有时 javascript 加载的内容同样可发现并且能够被抓取，您只需要知道要跟踪哪个 href。

答： 暂无答案

上一个：从 R 中的 HTML 节点列表中提取以 .pdf 结尾的 URL

下一个：尝试解析网页，下标越界

在 R 中抓取新闻标题的问题

Problem with scraping news headlines in R

评论