您推荐的 Java HTML解析库 [已关闭]

What HTML parsing libraries do you recommend in Java [closed]

提问人:pek 提问时间:8/26/2008 最后编辑:Charles Stewartpek 更新时间:1/3/2010 访问量:3962


答:

7赞 pek 8/26/2008 #1

我尝试过非常简单的 HTML 解析器

评论

0赞 Craig Angus 9/27/2008
我在一个项目上使用过 HTML 解析器,它完全按照预期工作
1赞 Lily 7/7/2009
但是可用的教程不多......
0赞 benjismith 3/17/2011
我注意到很多 javascript 片段(和元素属性)悄悄地进入了我所谓的“文本节点”提取。在某些情况下,格式错误的 HTML 会导致整个解析操作失败。因此,我希望用更好的东西替换我自己项目中的htmlparser库。
1赞 Herms 8/26/2008 #2

您需要对 HTML 进行完整解析吗?如果您只是在内容中查找特定值(特定标签/参数),那么一个简单的正则表达式可能就足够了,而且速度可能会更快。

12赞 jelovirt 8/26/2008 #3

NekoHTMLTagSoupJTidy 将允许您解析 HTML,然后使用 XML 工具(如 XPath)进行处理。

评论

0赞 Sumit Ghosh 5/14/2010
XPath 是 HTML 解析的方式,它有助于在格式错误的 HTML 以及正则表达式失败的情况下。