Nokogiri 在使用 <meta charset='UTF-8 解析 html 时引发错误>

Nokogiri raises error when parsing html with <meta charset='UTF-8>

提问人:Pierre-Louis Lacorte 提问时间:11/25/2020 更新时间:11/25/2020 访问量:236

问:

Nokogiri::HTML 在添加到 .html 文件时引发错误。<meta charset='UTF-8>

该文件如下所示:

<!DOCTYPE html> 
<html>
  <head>
    <meta charset="UTF-8">
    <title>My super content</title>
    <link rel="stylesheet" type="text/css" href="./static.css">
  </head>

  <body>
    <footer>
      <p></p>
    </footer>
    <script type="text/javascript" src="./static.js"></script>
  </body>

</html>

当我解析它时,我得到:

$ doc = Nokogiri::HTML(open('myfile.html'))
$ doc.errors
> [#<Nokogiri::XML::SyntaxError: 10:12: ERROR: Tag footer invalid>]

删除可解决问题。<meta charset="UTF-8">

为什么?我怎样才能让它与它一起工作?

ruby-on-rails ruby html-parsing nokogiri

评论


答:

1赞 Holger Just 11/25/2020 #1

Nokogiri 主要是一个 XML 解析器,因此需要大多数有效的 XML。尽管 HTML 看起来很像 XML,尤其是在 HTML 5 中,但有不同的规则,例如关闭标签和算法来检测诸如编码之类的东西,这使得 HTML 5 与 XML 和 XML 解析器不兼容。

在与您的问题相关的问题中,Mike Dalessio(nokogiri 维护者之一)的回应是:

Nokogiri 不支持 HTML5。您可能想查看 Nokogumbo 项目,该项目旨在实现与 Gumbo 解析器的 HTML5 兼容性。

评论

1赞 Tom Lord 11/25/2020
参见:github.com/sparklemotion/nokogiri/issues/2064