简单的 DOM - 抓取缺少类的站点/问题
作者:Mark Barry 提问时间:9/11/2023
我正在抓取一个分类广告的网站,每个页面都有 15 个搜索结果列表。大多数车辆列表都会有 class=price 作为价格。但是,有些列表省略了价格,这意味着我的 15 个数组可能缺少值,当我稍后遍历它...
抓取 问答列表
作者:Mark Barry 提问时间:9/11/2023
我正在抓取一个分类广告的网站,每个页面都有 15 个搜索结果列表。大多数车辆列表都会有 class=price 作为价格。但是,有些列表省略了价格,这意味着我的 15 个数组可能缺少值,当我稍后遍历它...
作者:Mark Barry 提问时间:9/12/2023
我正在抓取一个分类广告的网站,每个页面都有 15 个搜索结果列表。大多数车辆列表都会有 class=price 作为价格。但是,有些列表省略了价格,这意味着我的 15 个数组可能缺少值,当我稍后遍历它...
作者:Eric Lehmann 提问时间:9/12/2023
我无法在要抓取的页面中获取特定元素。内容被包裹在一个奇怪的标签中,不确定它是否是 iframe。我也尝试过CSS_SELECTOR,但是在上述标签之后出现的任何内容都会引发错误。 我要抓取的页面:h...
作者:PJB 提问时间:7/3/2023
我想从内部网站自动执行流程。我无法下载 selenium 或任何其他外部应用程序(github 被阻止)。 我运行报告并审核从几个供应商输入的信息。 我正在尝试自动单击 ric 网格中的三个编辑按...
作者:Mahdi Triki 提问时间:9/14/2023
我正在尝试使用 edge 创建用于网络抓取的驱动程序,因为新的 chrome 版本与 selenium 不兼容。但是,似乎每次我尝试加载指定的选项时,选项都会成功加载,但它总是返回错误。 from ...
作者:pigs never look back 提问时间:9/21/2023
网站需要特殊的证书,我需要为浏览器注册它们,我不能使用标准请求,因为我需要JS async def main(): browser = await launch(options={'ignoreH...
作者:Adam 提问时间:9/24/2023
我正在尝试抓取表格中的财务数据 https://www.barchart.com/stocks/quotes/IBM/income-statement/ 使用 inspect 元素我没有看到任何 X...
作者:K Max 提问时间:10/4/2023
我正在尝试抓取此网站以检索标题和正文内容(“描述”和“功能”)以及 PDF 链接。但是,当我尝试使用 XPath 提取文本时,我收到一个空列表。但是,正如您在以下屏幕截图中看到的那样,后面有一个文本块...
作者:이경민 提问时间:10/4/2023
import requests as rq from bs4 import BeautifulSoup url = 'https://kind.krx.co.kr/disclosure/todayd...
作者:peterweibbb 提问时间:10/21/2021
尝试使用 selenium 运行无头铬时,我收到以下错误: [1021/151706.155:错误:gpu_init.cc(453)]不支持 Passthrough,GL 是 swiftshader...