使用 HTMLUNIT 对动态网页进行爬网
作者:Marcopolo Soc 提问时间:8/25/2012
我正在使用HtmlUnit从动态网页抓取数据,该网页使用无限滚动来动态获取数据,就像Facebook的新闻源一样。我用下面的句子来模拟向下滚动事件: webclient.setJavaScriptE...
网络爬虫 问答列表
作者:Marcopolo Soc 提问时间:8/25/2012
我正在使用HtmlUnit从动态网页抓取数据,该网页使用无限滚动来动态获取数据,就像Facebook的新闻源一样。我用下面的句子来模拟向下滚动事件: webclient.setJavaScriptE...
作者:user68142 提问时间:2/19/2009
我正在通过使用我的爬虫挖掘网络内容来做一些分析。网页通常在文章正文周围包含杂乱无章的内容(例如广告、不必要的图像和无关的链接),从而分散用户对实际内容的注意力。 据我所知,提取合理的内容是一个难题,...
作者:zahlen 提问时间:8/18/2017
我正在尝试构建一个网络爬虫,该爬虫可以抓取页面上的所有链接并将它们添加到文件中。 我的 Python 代码包含一个执行以下操作的方法:- 打开给定的网页(使用 urllib2 模块) 检查 HT...
作者:leonbear 提问时间:3/5/2018
这个问题在这里已经有答案了: WebDriver click() 与 JavaScript click() (5 个答案) 5年前关闭。 在 Python 中,使用 Selenium,我试图通过爬虫...
作者:leonbear 提问时间:3/19/2019
我有一个任务是抓取所有普利策奖得主,我发现这个页面有我想要的一切:https://www.pulitzer.org/prize-winners-by-year/2018。 但是我遇到了以下问题, ...
作者:Guy4444 提问时间:4/8/2019
我正在开发一个聚合报纸文章的网络爬虫。我知道 AMP 协议要求使用 Javascript 的精简版本,我也知道 Javascript(部分)使网站管理员能够检测/防止抓取。因此,从逻辑上讲,我认为抓取...
作者:EliudM 提问时间:5/27/2018
我正在尝试评估 Solr,但无法开始抓取带有递归选项的网站。到处寻找答案,但没有运气。 环境:Windows Server 2012 r2,java 版本“1.8.0_171”,solr-7.3.0。...
作者:Uwe_98 提问时间:11/1/2019
URL 请求和 sniff(count=x) 不能协同工作。sniff(count) 正在等待 x 个数据包进行嗅探,尽管我必须将该行放在 url-request 之前,但它会阻止程序,但 url 请...
作者:이경민 提问时间:10/4/2023
import requests as rq from bs4 import BeautifulSoup url = 'https://kind.krx.co.kr/disclosure/todayd...
作者:Bits Student 提问时间:11/4/2023
我只是尝试了scrapy起始页中给出的示例代码来学习它,但是我尝试的每个网页都面临错误。不知道如何解决。 2023-11-04 07:14:14 [scrapy.core.scraper] ERRO...