提问人:Saurabh Jindal 提问时间:11/17/2023 更新时间:11/17/2023 访问量:25
无法抓取使用 Algolia 组件的网站 [已关闭]
Can't scrape a website which is using Algolia components [closed]
问:
这里的新手 - 并且一直在使用 BeautifulSoup 来提取一些网站。
我试图提取参展商列表(主要是他们的页面链接 - 通过这些链接我可以进一步获取单个数据元素),这里: https://www.wtm.com/london/en-gb/exhibitor-directory.html#/
花了很多时间,但不知何故无法获得参展商页面的各个链接。
尝试了多次,但我最终总是在网站上获得固定链接(即页眉/页脚/左栏搜索字段(总共 135 个 div))
我还查看了其他一些答案(例如,如此处建议:脚本中的蜘蛛运行不会从种子中抓取页面start_urls) - 但就是不能继续。
有什么建议吗?也许我错过了一些有经验的人可以指导我的东西?从表面上看,这似乎很简单 - find_all(参展商类别的 divs),然后提取 href 属性。但是我就是无法访问参展商班级(或他们的任何家长班级)。
它使用无限滚动,我可以使用 selenium 管理它,但就是无法获取单个链接
答: 暂无答案
评论