网络爬虫 问答列表

使用 HTMLUNIT 对动态网页进行爬网

作者:Marcopolo Soc 提问时间:8/25/2012

我正在使用HtmlUnit从动态网页抓取数据,该网页使用无限滚动来动态获取数据,就像Facebook的新闻源一样。我用下面的句子来模拟向下滚动事件: webclient.setJavaScriptE...

从网页中提取含义的完整内容

作者:user68142 提问时间:2/19/2009

我正在通过使用我的爬虫挖掘网络内容来做一些分析。网页通常在文章正文周围包含杂乱无章的内容(例如广告、不必要的图像和无关的链接),从而分散用户对实际内容的注意力。 据我所知,提取合理的内容是一个难题,...

在网络爬虫中解析 HTML 页面

作者:zahlen 提问时间:8/18/2017

我正在尝试构建一个网络爬虫,该爬虫可以抓取页面上的所有链接并将它们添加到文件中。 我的 Python 代码包含一个执行以下操作的方法:- 打开给定的网页(使用 urllib2 模块) 检查 HT...

为什么不是可点击的,但execute_script有意义。Python、Selenium、JS in href [duplicate]

作者:leonbear 提问时间:3/5/2018

这个问题在这里已经有答案了: WebDriver click() 与 JavaScript click() (5 个答案) 5年前关闭。 在 Python 中,使用 Selenium,我试图通过爬虫...

如何使用 api url 返回 null 抓取动态 web?

作者:leonbear 提问时间:3/19/2019

我有一个任务是抓取所有普利策奖得主,我发现这个页面有我想要的一切:https://www.pulitzer.org/prize-winners-by-year/2018。 但是我遇到了以下问题, ...

抓取 AMP 版本的网页更容易吗?

作者:Guy4444 提问时间:4/8/2019

我正在开发一个聚合报纸文章的网络爬虫。我知道 AMP 协议要求使用 Javascript 的精简版本,我也知道 Javascript(部分)使网站管理员能够检测/防止抓取。因此,从逻辑上讲,我认为抓取...

Solr post.jar 崩溃并显示“prolog 中不允许内容”

作者:EliudM 提问时间:5/27/2018

我正在尝试评估 Solr,但无法开始抓取带有递归选项的网站。到处寻找答案,但没有运气。 环境:Windows Server 2012 r2,java 版本“1.8.0_171”,solr-7.3.0。...

编写有关网络爬虫的TCP流量的pcap文件

作者:Uwe_98 提问时间:11/1/2019

URL 请求和 sniff(count=x) 不能协同工作。sniff(count) 正在等待 x 个数据包进行嗅探,尽管我必须将该行放在 url-request 之前,但它会阻止程序,但 url 请...

关于使用请求模块的get函数后用python解析

作者:이경민 提问时间:10/4/2023

import requests as rq from bs4 import BeautifulSoup url = 'https://kind.krx.co.kr/disclosure/todayd...

我收到 [scrapy.core.scraper] 错误:蜘蛛错误处理 <GET https://www.zyte.com/blog/>

作者:Bits Student 提问时间:11/4/2023

我只是尝试了scrapy起始页中给出的示例代码来学习它,但是我尝试的每个网页都面临错误。不知道如何解决。 2023-11-04 07:14:14 [scrapy.core.scraper] ERRO...


共12条 当前第1页