网页抓知识经验-第4页-解网

作者：Krystian Owczarek 提问时间：8/3/2023

我有一个服务器，在使用 Puppeteer 发送 POST 请求后，我打开一个页面，向下滚动到底部，然后才返回页面的 HTML 代码。我在这里的目标是发送图像的所有 URL，因为它们以无限滚动的方式加...

作者：TCritical 提问时间：8/4/2023

我想从以下 HTML 代码中提取表格内容，这些代码列在 <div 类下。我尝试了不同的代码，但找不到正确的解决方案。 <table class="ISLogIn AvgTotal" id="invo...

作者：Waqas Ahmed 提问时间：8/7/2023

我想在 while 循环中使用函数。While loop 用于滚动无限滚动网站。我想在last_scroll和new_scroll之间等待一下，以加载页面内容。静态工作正常，但我不想使用它。WebDr...

作者：Roylat Gnail 提问时间：8/8/2023

我正在尝试通过抓取来存档站点（API 不是一种选择），并且正在使用代理绕过站点的速率限制。我正在使用 python 请求库，并使用存储在中的代理列表，其中包含工作代理proxies.txt 我...

作者：Jeff_V 提问时间：8/8/2023

我在 Express 服务器上设置了以下 Google 图片抓取工具。它接受一个查询数组，并应该返回每个查询的第一个图像结果值的数组，即每个查询的单独 Google 图片搜索。src let que...

作者：Mulak 提问时间：8/9/2023

我正在从雅虎财经的损益表数据表中收集数据。此表中有可折叠/可展开的部分，网络爬虫似乎无法访问这些部分。如何从折叠的部分中检索数据？这是我从中抓取的网站的链接：https://finance.yahoo...

作者：Yasser Mohamed 提问时间：8/9/2023

这段代码我在 Ping AI 中测试过并有效，但在我的 Vstudio 中不起作用 import urllib.request import urllib.parse import urllib.e...

作者：amspsingh04 提问时间：8/12/2023

在这里，我尝试访问 leetcode 问题标题，这些标题可在给定的链接中找到。但是，我似乎无法访问指定 Web 元素中的文本。我得到的错误说： AttributeError: 'list' obje...

作者：hanna 提问时间：8/14/2023

我无法从网站获得评级编号 https://www.hoka.com/en/us/mens-everyday-running-shoes/rincon-3/1119395.html 使用硒。这是我所...

作者：K Max 提问时间：10/4/2023

我正在尝试抓取此网站以检索标题和正文内容（“描述”和“功能”）以及 PDF 链接。但是，当我尝试使用 XPath 提取文本时，我收到一个空列表。但是，正如您在以下屏幕截图中看到的那样，后面有一个文本块...