提问人:sampan0423 提问时间:5/17/2021 更新时间:5/18/2021 访问量:38
为什么 Python 响应选择器只能获取部分实际元素
why python response selectors can only get part of the actual elements
问:
我正在使用 python scrapy,尝试在页面上获取 car-name:
https://youjia.baidu.com/view/carDatabase?title=%E7%8E%B0%E4%BB%A3&key=code&val=174&sa=pc_growth_1
但是当我使用以下方法时
len(response.css('p.car-name::text').getall())
我只能从实际的 25 个元素中得到 46 个。 我已经仔细检查了页面源代码,并使用了 selenium 中间件。 为什么?有人知道线索吗?
完整的来源放在这里
https://github.com/sampan0423/youjia1
答:
0赞
Dr Pi
5/18/2021
#1
sampan,你可以用 Scrapy 编写代码来处理更多的负载,你不需要 Selenium。
前提是您可以继续通过 API 访问 JSON
看上一篇文章: Scrapy Extract ld+JSON
评论
infinite scroll
Network -> XHR
https://youjia.baidu.com/conditionsearch?token=1_526c1239fc0b0512a2bd13ac6b962f5f&sort=4&brand=174&level=&country=&price=&rn=50
rn