web-scraping 问答列表

将 Json 文件中的键与 python 中列表中的值进行比较 [已关闭]

作者:Nick_Sutton 提问时间:7/29/2023

已关闭。这个问题需要细节或澄清。它目前不接受答案。 想改进这个问题吗?通过编辑这篇文章添加详细信息并澄清问题。 4个月前关闭。 自 3 个月前起,社区正在审查是否重新讨论这个问题。 改进此问题...

需要 Python 中正则表达式模式的帮助 – 解析复杂的 HTML 结构

作者:prabu naresh 提问时间:9/2/2023

我正在尝试使用 Python 的 re 模块解析复杂的 HTML 结构,但我的正则表达式模式遇到了障碍。这是我想做的: 我有包含嵌套元素的 HTML 文本,我想提取最内层标签的内容。但是,我似乎无法...

从维基百科页面的边表收集数据

作者:Jed 提问时间:9/13/2023

我正在尝试创建一个 python 脚本,该脚本可以从维基百科页面的侧表中收集信息。有关示例,请参阅此页面。在页面的右侧,有 3 个垂直的 HTML。第一代名为“福特Fusion”,第二代为“第一代”,...

Selenium 按钮单击在页面 URL 上未按预期工作

作者:jojo okolie 提问时间:9/18/2023

我正在尝试通过单击下载按钮从 Web 链接下载 JSON 文件,但即使我使用正确的 ID 或选择器,下载按钮也没有响应。 下面是我的代码和我尝试从中提取数据的网站。 问题出在这条线上.我需要帮助来修...

使用 puppeteer 返回窗口对象

作者:alexc 提问时间:6/27/2018

我正在尝试从页面返回整个窗口对象,然后在 puppeteer 之外遍历该对象。 我正在尝试访问 Highcharts 属性中的数据,我需要访问窗口对象。普通的 javascript 代码类似于 .w...

CSS 定位器返回空列表

作者:mohamed sultan 提问时间:10/9/2023

我正在制作一个关于DataCamp的网页抓取课程:D 在会话中,我们正在抓取 Datacamp 网站以获取课程名称和 URL 然而 我正在尝试在我的 PC 上的 PyCharm 上达到相同的结果, ...

从 Bing 图像搜索结果中抓取 URL

作者:nba2020 提问时间:8/3/2023

我正在 R 中构建一个抓取脚本,用于从搜索引擎获取产品图像。在当前阶段,我已经设法使用以下代码片段从 Google 图片搜索中成功获取包含图像的 URL: google_urls <- GET("h...

Python Selenium:在网页抓取中到达可滚动 div 的末尾时如何停止 while 循环

作者:asma 提问时间:11/4/2023

我正在使用 Python 和 Selenium 编写网络抓取脚本。我有一个 while 循环,可以滚动网页并收集餐厅数据。我想在到达页面末尾时停止循环,但我不确定如何检测这种情况。这是我的代码: t...


共38条 当前第4页