如何使用 Java 有效地解析 HTML？-解网

问：

我在工作中做了很多 HTML 解析。到目前为止，我一直在使用 HtmlUnit 无头浏览器进行解析和浏览器自动化。

现在，我想将这两个任务分开。

我想使用一个轻量级的 HTML 解析器，因为在 HtmlUnit 中首先加载页面，然后获取源代码，然后解析它需要很多时间。

我想知道哪个 HTML 解析器可以有效地解析 HTML。我需要

速度
轻松通过其“id”或“name”或“tag type”找到任何HtmlElement。

如果它不清理肮脏的 HTML 代码，对我来说没关系。我不需要清理任何 HTML 源代码。我只需要一种最简单的方法来在 HtmlElements 之间移动并从中收集数据。

Java HTML 解析网页抓取

HtmlCleaner 是用 Java 编写的开源 HTML 解析器。在 Web 上找到的 HTML 通常是脏的、格式不正确的，不适合进一步处理。对于此类文档的任何严重消费，有必要首先清理烂摊子，并将订单带到标签、属性和普通文本中。对于给定的 HTML 文档，HtmlCleaner 对单个元素进行重新排序并生成格式正确的 XML。默认情况下，它遵循大多数 Web 浏览器用于创建文档对象模型的类似规则。但是，用户可以提供自定义标签和规则集，用于标签过滤和平衡。

使用 HtmlCleaner，您可以使用 XPath 找到任何元素。

对于其他 html 解析器，请参阅此 SO 问题。

如何使用 Java 有效地解析 HTML？

How can I efficiently parse HTML with Java?

评论

评论

评论