抓取 AMP 版本的网页更容易吗?

Is it easier to scrape the AMP versions of webpages?

提问人:Guy4444 提问时间:4/8/2019 最后编辑:Vadim KotovGuy4444 更新时间:4/9/2019 访问量:359

问:

我正在开发一个聚合报纸文章的网络爬虫。我知道 AMP 协议要求使用 Javascript 的精简版本,我也知道 Javascript(部分)使网站管理员能够检测/防止抓取。因此,从逻辑上讲,我认为抓取 AMP 网站会更容易。但是,另一方面,如果这是真的,我认为 StackOverflow 将位于它之上,但我还没有找到一个线程来重申我的推理。我是对的还是我忽略了什么?

网页抓取 beautifulsoup 网络爬虫 amp-html 网页挖掘

评论


答:

0赞 Haddock-san 4/9/2019 #1

我想说的是,由于几乎没有自定义 JS 代码,AMP 页面肯定更容易抓取。许多网站使用 JS 或 AJAX 插入内容。AMP 限制了您可以使用的库数量,因此与常规网站相比,它们的数量更少。

此外,如果你想抓取用 JavaScript 编写的内容,你应该可以 Selenium。如果没有,PHP 是 Python 中的必经之路(恕我直言)或 BeautifulSoup。

祝您刮痧愉快!