提取产品链接的正确选择器是什么?

what is the right selector for extracting the links of products?

提问人:mohsen0965 提问时间:11/18/2023 更新时间:11/18/2023 访问量:30

问:

我想抓取此网页中的产品链接 (href)。https://www.artfinder.com/editors-picks/theme/amazing-techniques/blurred-lines/#/

我正在使用 r,无法弄清楚在 html_nodes() 中编写的正确选择器是什么。 我尝试了“.fit-in”、“a.af-place.fit-in”,但他们不会提供链接。

你能帮帮我吗?

R 网页抓取 css-selectors

评论


答:

1赞 Andrew Gustar 11/18/2023 #1

此页面的结构不适用于 中的选择器。如果您使用 Chrome 的开发者工具之类的工具,您可以检查页面使用的资源,结果发现有一个 API 以 JSON 格式返回数据。rvest

因此,获取所需数据(需要更多整理)的一种方法是......

library(jsonlite)
prod_url <- "https://www.artfinder.com/api/theme/amazing-techniques/blurred-lines/products/?page=1&paginate=1000&sort=best_match&limit=1000"
prods <- fromJSON(prod_url)$results

这将返回一个包含大量信息的数据帧,包括包含 url 的列。

评论

0赞 mohsen0965 11/18/2023
哇!太好了!但是请问如何找到调整后的链接?
0赞 Andrew Gustar 11/18/2023
在Chrome中,我加载了第一个URL,右键单击产品并转到“检查”,单击“网络”并重新加载页面,然后转到“来源”,并搜索“URBAN BLUR”(来自其中一个产品的文本)。这得出了一个结果(显然是JSON格式),我点击了它,将我带到了API地址。我调整了参数以加载所有产品,而不仅仅是 12 个(默认值)。