提问人:Pierre-Louis Lacorte 提问时间:11/25/2020 更新时间:11/25/2020 访问量:236
Nokogiri 在使用 <meta charset='UTF-8 解析 html 时引发错误>
Nokogiri raises error when parsing html with <meta charset='UTF-8>
问:
Nokogiri::HTML 在添加到 .html 文件时引发错误。<meta charset='UTF-8>
该文件如下所示:
<!DOCTYPE html>
<html>
<head>
<meta charset="UTF-8">
<title>My super content</title>
<link rel="stylesheet" type="text/css" href="./static.css">
</head>
<body>
<footer>
<p></p>
</footer>
<script type="text/javascript" src="./static.js"></script>
</body>
</html>
当我解析它时,我得到:
$ doc = Nokogiri::HTML(open('myfile.html'))
$ doc.errors
> [#<Nokogiri::XML::SyntaxError: 10:12: ERROR: Tag footer invalid>]
删除可解决问题。<meta charset="UTF-8">
为什么?我怎样才能让它与它一起工作?
答:
1赞
Holger Just
11/25/2020
#1
Nokogiri 主要是一个 XML 解析器,因此需要大多数有效的 XML。尽管 HTML 看起来很像 XML,尤其是在 HTML 5 中,但有不同的规则,例如关闭标签和算法来检测诸如编码之类的东西,这使得 HTML 5 与 XML 和 XML 解析器不兼容。
在与您的问题相关的问题中,Mike Dalessio(nokogiri 维护者之一)的回应是:
Nokogiri 不支持 HTML5。您可能想查看 Nokogumbo 项目,该项目旨在实现与 Gumbo 解析器的 HTML5 兼容性。
评论
1赞
Tom Lord
11/25/2020
参见:github.com/sparklemotion/nokogiri/issues/2064
评论