python-re 问答列表

抓取文本Requests_html问题

作者:Igor 提问时间:11/25/2022

抓取元素的文本内容的功能无法正常工作。 我试图重新安装该模块,但没有帮助。 我尝试使用requests_html模块,如提供的指南 但是当我输入命令打印文本时,它会抓取页面的所有文本,而不是当前元素...

抓取 wiki 中的第一段链接

作者:joe 提问时间:1/14/2019

如何抓取wiki中的第一段链接? 括号中的所有链接都应排除在外。例如,我提供以下链接: https://en.wikipedia.org/wiki/Data。 在这个页面上,我想抓取的第一个链接...

对于应用程序来说,从代码库到任何用户指定的 url 的 get 请求是安全的

作者:akash deep 提问时间:2/23/2023

想要确认应用程序使用 python 中的 requests 模块向任何用户指定的 url 发出 get 请求是否安全。 是否有任何安全问题,以及任何要遵循的最佳实践。 我们在 get 调用上应用了 1...

如何使用 Python 请求绕过 Steam(或类似网站)上的 Cloudfare?

作者:axerold 提问时间:4/14/2023

我正在创建一个 python 机器人,它能够从帐户中收集有关购买的游戏、成就等的统计数据。 主要问题是解析页面(https://steamcommunity.com/id/axerold2000/g...

如何修复SSLError(SSLError(1, '[SSL: WRONG_SIGNATURE_TYPE] 错误的签名类型 (_ssl.c:1002)')))

作者:s0ull788 提问时间:5/28/2023

我正在练习抓取并选择了一个站点 https://www.amalgama-lab.com/songs/m/marilyn_manson/tainted_love.html 当我尝试获取对该站点的获取请...

为什么“requests-html”不能呈现所有 HTML 内容?

作者:Ahmad Abdelbaset 提问时间:5/21/2023

我正在尝试抓取数据,但脚本并未加载所有 html 内容,尽管我更改了渲染时间。请看下面的代码: from requests_html import HTMLSession, AsyncHTMLSes...

为什么 requests-html 会部分返回内容?

作者:GayLord 提问时间:7/2/2023

我知道,这是因为内容是由 JS 渲染的,但 requests-html 支持 JS,所以这很奇怪 代码本身: from requests_html import HTMLSession sess...

Python 请求返回 OSError 403 禁止在 Ubuntu 上使用代理

作者:Nebula1327 提问时间:7/4/2023

我花了无数个小时试图解决以下问题,虽然我已经缩小了问题范围,但我还没有找到解决方案。 该代码在 Windows 10 上运行良好,没有错误,但是,在 Ubuntu 上运行时,大约 1/50-100 ...

使用 Python 在 html 标签中提取/搜索所需的字符串/文本

作者:AriffKmy 提问时间:8/3/2023

我有一个 html 文件,其中包含 400 个 html 标签,我想从标签中提取一些特定的文本。此文件是本地文件,而不是联机网页。我只是先尝试使用 1 个 html 文件来检查和确认逻辑。在实际需求中...

代理和 Python 请求库不会更改 IP

作者:Roylat Gnail 提问时间:8/8/2023

我正在尝试通过抓取来存档站点(API 不是一种选择),并且正在使用代理绕过站点的速率限制。 我正在使用 python 请求库,并使用存储在 中的代理列表,其中包含工作代理proxies.txt 我...


共64条 当前第5页