网页抓取 问答列表

单击“网页”选项卡(如果可见)

作者:TCritical 提问时间:7/20/2023

我一直在尝试使用代码单击网页中的选项卡 Set P = D.FindElementByCss("a[href='#pro-content-pro']") P.Click 如果选项卡在网页中可见...

致命错误:未捕获的 ValueError:DOMDocument::loadHTML():参数 #1 ($source) 不得为空

作者:anpami 提问时间:7/22/2023

我想使用 cURL 在 PHP 中抓取这个网站。 我在PHP中使用类似的网络抓取脚本,它们运行良好。 但是,我收到以下错误: Fatal error: Uncaught ValueError: ...

Web 抓取 R 中的超链接文本?

作者:James Rider 提问时间:7/25/2023

https://www.nber.org/papers?page=1&perPage=50&sortBy=public_date 以上网页由一系列学术论文组成。这些论文的标题(例如,分组异质性下的稀...

为什么我的代码多次打印出相同的 html 链接?

作者:Vinh Nguyễn Thành 提问时间:7/27/2023

我正在 Python 上进行以下链接活动(这是关于 Python Web Access 数据 - Coursera 的作业)。问题来了: 在本作业中,您将编写一个扩展 http://www.py4e....

如何使用硒获取更改网站的页面源?

作者:user_bktv_all3103 提问时间:7/30/2023

我需要在更改页面后获取页面的源代码,我向页面发送请求,然后页面在我的浏览器中打开,我用手选择一些数据,然后出现一个包含必要数据的表格,经过所有这些操作后,我该如何获取此表格或更改后获取整页代码 im...

在 Render 上部署后使用 Puppeteer 在 Node JS 服务器上抓取图像的问题

作者:Krystian Owczarek 提问时间:8/3/2023

我有一个服务器,在使用 Puppeteer 发送 POST 请求后,我打开一个页面,向下滚动到底部,然后才返回页面的 HTML 代码。我在这里的目标是发送图像的所有 URL,因为它们以无限滚动的方式加...

Selenium VBA:获取在 <tr 和 <td 下具有 <div 类元素的表内容

作者:TCritical 提问时间:8/4/2023

我想从以下 HTML 代码中提取表格内容,这些代码列在 <div 类下。我尝试了不同的代码,但找不到正确的解决方案。 <table class="ISLogIn AvgTotal" id="invo...

WebDriver.Wait() 在用于无限页面滚动的 While 循环中不起作用

作者:Waqas Ahmed 提问时间:8/7/2023

我想在 while 循环中使用函数。While loop 用于滚动无限滚动网站。我想在last_scroll和new_scroll之间等待一下,以加载页面内容。静态工作正常,但我不想使用它。WebDr...

代理和 Python 请求库不会更改 IP

作者:Roylat Gnail 提问时间:8/8/2023

我正在尝试通过抓取来存档站点(API 不是一种选择),并且正在使用代理绕过站点的速率限制。 我正在使用 python 请求库,并使用存储在 中的代理列表,其中包含工作代理proxies.txt 我...

为什么我的 Selenium 抓取工具为不同的查询返回相同的图像源?

作者:Jeff_V 提问时间:8/8/2023

我在 Express 服务器上设置了以下 Google 图片抓取工具。它接受一个查询数组,并应该返回每个查询的第一个图像结果值的数组,即每个查询的单独 Google 图片搜索。src let que...


共171条 当前第10页