403 使用 Jsoup 解析 Web 内容时出现 Web 解析错误
作者:MvmGsu 提问时间:8/30/2022
我有一个任务来解析网站的内容,并将其存储在本地驱动器的 .fsv 文件中。我正在使用 Jsoup 来阅读网页的内容,这就是我的程序的样子。出于某种原因,在 Java 中,我得到了 403 Forbid...
html 解析 问答列表
作者:MvmGsu 提问时间:8/30/2022
我有一个任务来解析网站的内容,并将其存储在本地驱动器的 .fsv 文件中。我正在使用 Jsoup 来阅读网页的内容,这就是我的程序的样子。出于某种原因,在 Java 中,我得到了 403 Forbid...
作者:Katerlad 提问时间:9/8/2022
问题: 我在尝试解析此页面以查找包含图像链接的外壳 xml 标记时遇到问题。 https://store.steampowered.com/feeds/news/app/1348750/?cc=U...
作者:Ehtisham Ali Shah 提问时间:9/30/2022
在 Android 中,除了 Apple 的类之外,是否有任何替代方案可以获取和提供给定 URL 的元数据?LPMetadataProvider 我知道有些库喜欢获取 URL 的 HTML 源代码,...
作者:JJH 提问时间:10/7/2022
我正在尝试从“span”中提取标题。 以下面的代码为例,我正在寻找的输出是 6536 和 9319,它们是“title”的一部分。如下图所示: span aria-label=“6536 个用户为...
作者:Sai 提问时间:10/7/2022
我有下面的HTML,需要递归解析。为此,我正在使用 Jericho html 解析器库。但是无法实现递归。感谢指点! [HTML全 <div wicket:id="Container1"> <d...
作者:JJH 提问时间:10/9/2022
我正在寻找从 Github 网页列表中提取“类别”下列出的项目。 在示例代码中,我能够识别需要解析的文本块,但是当我解析文本时,输出如下所示: ['\n\n\n \n\n \n\n \n\n \n...
作者:Rojer Brief 提问时间:10/20/2022
链接示例: <img src="https://thumbs.com/thumbs/test.mp4/test1.mp4-3.jpg" alt="This is the description i ...
作者:Jessika 提问时间:10/21/2022
我需要从所有图像中获取 html 代码的 src 和 alt。我设法得到了它,但我有以下问题: 如果图像没有alt,则它不会检测到我的图像。在这些情况下,我只需要获取 src。 以下代码适用于以下...
作者:Ashish Bhoya 提问时间:10/30/2022
我有一个用例,我想在边缘商店中读取已发布扩展的版本。 任何已发布扩展的链接如下 -> https://microsoftedge.microsoft.com/addons/detail/incogni...
作者:CaptainG 提问时间:10/31/2022
我想从网页中导出一个特定的div。在这种情况下,我想导出 id 为“producer-votes-wrapper”的 div;页面的这一部分包含我想要获取的所有数字(数据)。 使用前面的例子和问题,...