无法抓取使用 Algolia 组件的网站 [已关闭]

Can't scrape a website which is using Algolia components [closed]

提问人:Saurabh Jindal 提问时间:11/17/2023 更新时间:11/17/2023 访问量:25

问:


想改进这个问题吗?通过编辑这篇文章添加详细信息并澄清问题。

5天前关闭。

这里的新手 - 并且一直在使用 BeautifulSoup 来提取一些网站。

我试图提取参展商列表(主要是他们的页面链接 - 通过这些链接我可以进一步获取单个数据元素),这里: https://www.wtm.com/london/en-gb/exhibitor-directory.html#/

花了很多时间,但不知何故无法获得参展商页面的各个链接。

尝试了多次,但我最终总是在网站上获得固定链接(即页眉/页脚/左栏搜索字段(总共 135 个 div))

我还查看了其他一些答案(例如,如此处建议:脚本中的蜘蛛运行不会从种子中抓取页面start_urls) - 但就是不能继续。

有什么建议吗?也许我错过了一些有经验的人可以指导我的东西?从表面上看,这似乎很简单 - find_all(参展商类别的 divs),然后提取 href 属性。但是我就是无法访问参展商班级(或他们的任何家长班级)。

它使用无限滚动,我可以使用 selenium 管理它,但就是无法获取单个链接

蟒蛇 硒-webdriver web-scraping beautifulsoup algolia

评论


答: 暂无答案