提问人:Psychedelique23 提问时间:1/8/2023 更新时间:1/9/2023 访问量:56
如何使用 python 抓取网页中列出的每个个人链接的数据?
How do I scrape the data for each personal links listed in a webpage using python?
问:
我即将获得 https://chambers.com/all-lawyers-asia-pacific-8 中每位律师的详细信息。大约有 5k+ 律师上市。但他们的详细信息列在网站的相关链接中。我抓取一个网页没有问题。但是,我需要很长时间才能访问每个律师个人资料页面并单独抓取它们。有没有办法循环这个过程?
我真的不知道该怎么做,因为我的任务是获取律师的姓名、他们的个人资料、他们的律师事务所和他们的等级的链接。
答:
0赞
Jurakin
1/9/2023
#1
我建议你使用线程来提升进程。该网站可能会因请求过多而禁止您。在这种情况下,您应该为每个线程使用不同的用户代理,或者通过 tor 或 vpn 发出请求。
0赞
kadis
1/9/2023
#2
用。
将所有记录的所有 href 属性作为列表,并在 for each 中遍历它们。
在循环中使用 href 值打开详情页。这将打开包含记录详细信息的页面,您可以在其中抓取所需信息。selenium webdriver
find_elements(by.xpath)
webdriver.get(href_value)
评论
0赞
Jurakin
1/9/2023
这并不能解决问题。他说.it will take forever for me to visit each lawyer profile page and scrape them individually
0赞
kadis
1/9/2023
如果您在循环之前阅读所有链接,而不是像某人那样将下一个链接的起始页抓取 5k 次,它不会永远持续下去
评论