提问人:knightcool 提问时间:9/7/2020 更新时间:9/7/2020 访问量:184
当页面偏移值永无止境时如何进行网页抓取
How to web scrape when page offset value never ends
问:
我正在尝试使用 BeautifulSoup 从 https://sofifa.com 中抓取玩家数据。每个页面显示 60 个玩家,因此我使用偏移查询参数(例如 https://sofifa.com/players?offset=60 显示第 2 页)来访问所有玩家的信息。
我注意到的一件事是偏移值永远不会结束(即无论我提供的偏移值有多大,它总是向我显示一页)。具体来说,我注意到对于 20000 左右>偏移量,它总是显示第 1 页(基本上在耗尽所有玩家之后,它会滚动到第 1 页,并且对于所有后续更高的偏移值,它总是显示它)。试着和 https://sofifa.com/players?offset=20000000 一起了解我的意思。
我想知道是否有任何方法可以以编程方式找出最后一个“有效”偏移值;超过它,我一定会拿回第一页。这将帮助我确定何时到达数据集的末尾。
目前我是这样抓取的:
for offset in range(0, 20000, 60):
try:
print("Processing page at offset " + str(offset))
sofifa_url = "https://sofifa.com/players?offset=" + str(offset)
# start scraping the page
:
:
except Exception as e:
print("Exception occured: " + str(e))
continue
答: 暂无答案
评论