提问人:mohsen0965 提问时间:11/18/2023 更新时间:11/18/2023 访问量:30
提取产品链接的正确选择器是什么?
what is the right selector for extracting the links of products?
问:
我想抓取此网页中的产品链接 (href)。https://www.artfinder.com/editors-picks/theme/amazing-techniques/blurred-lines/#/
我正在使用 r,无法弄清楚在 html_nodes() 中编写的正确选择器是什么。 我尝试了“.fit-in”、“a.af-place.fit-in”,但他们不会提供链接。
你能帮帮我吗?
答:
1赞
Andrew Gustar
11/18/2023
#1
此页面的结构不适用于 中的选择器。如果您使用 Chrome 的开发者工具之类的工具,您可以检查页面使用的资源,结果发现有一个 API 以 JSON 格式返回数据。rvest
因此,获取所需数据(需要更多整理)的一种方法是......
library(jsonlite)
prod_url <- "https://www.artfinder.com/api/theme/amazing-techniques/blurred-lines/products/?page=1&paginate=1000&sort=best_match&limit=1000"
prods <- fromJSON(prod_url)$results
这将返回一个包含大量信息的数据帧,包括包含 url 的列。
评论
0赞
mohsen0965
11/18/2023
哇!太好了!但是请问如何找到调整后的链接?
0赞
Andrew Gustar
11/18/2023
在Chrome中,我加载了第一个URL,右键单击产品并转到“检查”,单击“网络”并重新加载页面,然后转到“来源”,并搜索“URBAN BLUR”(来自其中一个产品的文本)。这得出了一个结果(显然是JSON格式),我点击了它,将我带到了API地址。我调整了参数以加载所有产品,而不仅仅是 12 个(默认值)。
评论