如何使用 python 抓取网页中列出的每个个人链接的数据?

How do I scrape the data for each personal links listed in a webpage using python?

提问人:Psychedelique23 提问时间:1/8/2023 更新时间:1/9/2023 访问量:56

问:

我即将获得 https://chambers.com/all-lawyers-asia-pacific-8 中每位律师的详细信息。大约有 5k+ 律师上市。但他们的详细信息列在网站的相关链接中。我抓取一个网页没有问题。但是,我需要很长时间才能访问每个律师个人资料页面并单独抓取它们。有没有办法循环这个过程?

我真的不知道该怎么做,因为我的任务是获取律师的姓名、他们的个人资料、他们的律师事务所和他们的等级的链接。

python 抓取 网页 爬虫 html 解析

评论


答:

0赞 Jurakin 1/9/2023 #1

我建议你使用线程来提升进程。该网站可能会因请求过多而禁止您。在这种情况下,您应该为每个线程使用不同的用户代理,或者通过 tor 或 vpn 发出请求。

0赞 kadis 1/9/2023 #2

用。 将所有记录的所有 href 属性作为列表,并在 for each 中遍历它们。 在循环中使用 href 值打开详情页。这将打开包含记录详细信息的页面,您可以在其中抓取所需信息。selenium webdriverfind_elements(by.xpath)webdriver.get(href_value)

评论

0赞 Jurakin 1/9/2023
这并不能解决问题。他说.it will take forever for me to visit each lawyer profile page and scrape them individually
0赞 kadis 1/9/2023
如果您在循环之前阅读所有链接,而不是像某人那样将下一个链接的起始页抓取 5k 次,它不会永远持续下去