爬虫知识经验-解网

作者：Aloehart 提问时间：8/6/2013

我已经使用这个网站很长时间来寻找问题的答案，但我无法找到这个问题的答案。我正在与一个小组一起完成一个班级项目。我们将建立一个小型的“游戏交易”网站，允许人们注册，放入他们想要交易的游戏，并接受他人...

作者：Hafiz Muhammad Shafiq 提问时间：8/25/2020

我已经设置了 Nutch 1.17 来抓取几个网站。像往常一样，在高级别可以有两种类型的网页。首先是那些不包含任何特定故事的详细信息但提供多个页面的链接和短文本的类别页面或主页。其次，有些页面包含完整...

作者：Ignacio Perez vilaplana 提问时间：11/17/2023

我正在尝试使用 scrapy 及其，特别是此页面来废弃一个网站（“ellenmacarthurfoundation”）：Selector.css 这是网站这是我试图抓取的网络的 html 我正...

作者：Ingyu Seo 提问时间：11/17/2023

我正在尝试从网站抓取数据。问题是，当我向下滚动时，源代码正在发生变化。例如第一次，页面源代码就像...... <div role="presentation" style="transfo...

作者：Victor Yazigi 提问时间：11/17/2023

我正在构建一个 chrome 扩展程序，可以阻止来自 YouTube 的广告，它有一个具有以下样式的弹出菜单：每当我访问此弹出菜单时，我都可以使用本地存储来保存单选按钮和按钮中的所有信息，当我打开...

作者：Bits Student 提问时间：11/4/2023

我只是尝试了scrapy起始页中给出的示例代码来学习它，但是我尝试的每个网页都面临错误。不知道如何解决。 2023-11-04 07:14:14 [scrapy.core.scraper] ERRO...

作者：이경민 提问时间：10/4/2023

import requests as rq from bs4 import BeautifulSoup url = 'https://kind.krx.co.kr/disclosure/todayd...

作者：daniel gi 提问时间：7/18/2023

我正在尝试抓取（无头）此 URL 的脚本，但我注意到每当我在本地机器上执行此操作时，我都会得到：脚本。"https://vidstat.taboola.com/lite-unit/4.1.0/Unit...

作者：Psychedelique23 提问时间：1/8/2023

我即将获得 https://chambers.com/all-lawyers-asia-pacific-8 中每位律师的详细信息。大约有 5k+ 律师上市。但他们的详细信息列在网站的相关链接中。我抓取...

作者：Julia 提问时间：3/7/2021

我正在尝试使用 python 插件 scrapy 从 booking.com 抓取酒店评论。我的问题是，scrapy无法找到所需的数据（例如负面反馈）。我认为，这是因为网站中嵌入了 javascr...