403 使用 Jsoup 解析 Web 内容时出现 Web 解析错误

403 Web Parsing Error while parsing Web Content using Jsoup

提问人:MvmGsu 提问时间:8/30/2022 最后编辑:trashgodMvmGsu 更新时间:8/30/2022 访问量:313

问:

我有一个任务来解析网站的内容,并将其存储在本地驱动器的 .fsv 文件中。我正在使用 Jsoup 来阅读网页的内容,这就是我的程序的样子。出于某种原因,在 Java 中,我得到了 403 Forbidden,但我在 Web 浏览器中得到了正确的结果。 法典:

String a ="https://ecorp.sos.ga.gov/";
Document doc = soup.connect(a).userAgent("Mozilla/5.0").get();
                  
System.out.println("Title is ::: "+doc.title());
// System.out.println("Body is ::: "+doc.body().text());
Elements newsHeadlines = doc.select("#mp-left");
for (Element headline : newsHeadlines) {
    System.out.println("title is :::"+headline.attr("title")
        +" and url is ::::  "+ headline.absUrl("href"));
}

错误: 线程“main”org.jsoup.HttpStatusException中的异常:获取URL时HTTP错误。状态 = 403,URL=[https://ecorp.sos.ga.gov/]

我已经针对类似的错误浏览了一些现有的解决方案,但它没有帮助。

Java Web JSoop HTML 解析

评论

0赞 trashgod 8/30/2022
您是否检查过网站政策?
0赞 MvmGsu 8/30/2022
我尝试使用 /robots.txt,但它给出了 404 资源未找到错误。我们还有其他方法可以检查政策吗?
0赞 trashgod 8/30/2022
如果 userAgent 无效,请尝试一些其他请求属性,例如,或询问所有者。

答: 暂无答案