爬虫 问答列表

从网页中提取数据,解析特定部分,然后显示数据

作者:Aloehart 提问时间:8/6/2013

我已经使用这个网站很长时间来寻找问题的答案,但我无法找到这个问题的答案。 我正在与一个小组一起完成一个班级项目。我们将建立一个小型的“游戏交易”网站,允许人们注册,放入他们想要交易的游戏,并接受他人...

Apache Nutch 仅将文章页面索引到 Solr

作者:Hafiz Muhammad Shafiq 提问时间:8/25/2020

我已经设置了 Nutch 1.17 来抓取几个网站。像往常一样,在高级别可以有两种类型的网页。首先是那些不包含任何特定故事的详细信息但提供多个页面的链接和短文本的类别页面或主页。其次,有些页面包含完整...

使用 scrapy 抓取东西时的空响应 (python)

作者:Ignacio Perez vilaplana 提问时间:11/17/2023

我正在尝试使用 scrapy 及其 ,特别是此页面来废弃一个网站(“ellenmacarthurfoundation”):Selector.css 这是网站 这是我试图抓取的网络的 html 我正...

当page_source随着向下滚动而变化时,如何进行动态网络爬虫

作者:Ingyu Seo 提问时间:11/17/2023

我正在尝试从网站抓取数据。 问题是,当我向下滚动时,源代码正在发生变化。 例如 第一次,页面源代码就像...... <div role="presentation" style="transfo...

通过运行在不同 HTML 上的 js 文件传递信息

作者:Victor Yazigi 提问时间:11/17/2023

我正在构建一个 chrome 扩展程序,可以阻止来自 YouTube 的广告,它有一个具有以下样式的弹出菜单: 每当我访问此弹出菜单时,我都可以使用本地存储来保存单选按钮和按钮中的所有信息,当我打开...

我收到 [scrapy.core.scraper] 错误:蜘蛛错误处理 &lt;GET https://www.zyte.com/blog/&gt;

作者:Bits Student 提问时间:11/4/2023

我只是尝试了scrapy起始页中给出的示例代码来学习它,但是我尝试的每个网页都面临错误。不知道如何解决。 2023-11-04 07:14:14 [scrapy.core.scraper] ERRO...

关于使用请求模块的get函数后用python解析

作者:이경민 提问时间:10/4/2023

import requests as rq from bs4 import BeautifulSoup url = 'https://kind.krx.co.kr/disclosure/todayd...

Puppeteer 始终在远程服务器上加载移动脚本

作者:daniel gi 提问时间:7/18/2023

我正在尝试抓取(无头)此 URL 的脚本,但我注意到每当我在本地机器上执行此操作时,我都会得到:脚本。"https://vidstat.taboola.com/lite-unit/4.1.0/Unit...

如何使用 python 抓取网页中列出的每个个人链接的数据?

作者:Psychedelique23 提问时间:1/8/2023

我即将获得 https://chambers.com/all-lawyers-asia-pacific-8 中每位律师的详细信息。大约有 5k+ 律师上市。但他们的详细信息列在网站的相关链接中。我抓取...

如何在不被阻止的情况下在 booking.com 上使用scrapy?

作者:Julia 提问时间:3/7/2021

我正在尝试使用 python 插件 scrapy 从 booking.com 抓取酒店评论。 我的问题是,scrapy无法找到所需的数据(例如负面反馈)。我认为,这是因为网站中嵌入了 javascr...


共19条 当前第1页