如何使用 api url 返回 null 抓取动态 web？-解网

问：

我有一个任务是抓取所有普利策奖得主，我发现这个页面有我想要的一切：https://www.pulitzer.org/prize-winners-by-year/2018。

但是我遇到了以下问题，

问题 1：如何抓取动态页面？我使用 python/urllib2.urlopen 来获取页面的内容，但这个动态页面不会从中返回真实内容。

问题 2：然后，我从devtool中找到了一个API URL：https://www.pulitzer.org/cache/api/1/winners/year/166/raw.json。但是当我从 urllib2.urlopen 发送 GET 请求时，我总是得到 null。它是如何发生的？或者我该如何处理它？

如果这对你来说太幼稚了，请说出一些词，以便我可以从谷歌学习。

提前致谢！

python 网络爬虫 urllib2 动态页面

如何使用 api url 返回 null 抓取动态 web？

How to crawl dynamic web with api url returning null?

评论

评论