工具（过滤器）将HTML5转换为多语言标记？-解网

问：

上下文：我的 HTML5 文档不需要 Javascript、动画、表单......它们“只是内容”。因此，可以过滤这些表示形式，只需要“全HTML5表示”的一些子集/约束。表达这种情况（以及其他更广泛的情况）的一个好方法是说“我的文档可以用多语言标记约束来表达”。

问：有没有一种工具可以将“任何 HTML5”转换为 Polyglot XHTML5（或过滤丢失虚假信息）？
最好是基于 DOM（或 XSLT 或 XQuery）扩展的工具。

XML HTML 多语言标记

这可以使用 Java 正则匹配表达式来实现，例如替换字符串，如 .表达式查找标记中的第一个单词，将其分配给模式组 1，将标记上的所有属性分配给模式组 2。这使您能够在开始标记中连接组 1 和 2，并再次在结束标记中重用组 1。<\s*([^\s>]+)([^>]*)/\s*><$1$2></$1>textarea

希望这会有所帮助。

谢谢，但你必须看到 w3.org/TR/html-polyglot 理解这个问题，不仅仅是一个关于“平衡标签”的问题，而且，对于更复杂的解析任务，你必须在这里显示解析器（问题不是“我可以写一个解析器吗？”，而是“解析器在哪里？”）。PS：对不起，投了反对票，但你现在处于“开放赏金+50”（3天后回来编辑你的问题并尝试退回你的投票）。

0赞 mika 3/14/2015

三天后，我可能仍然不知道这样的工具。如果没有，即使这对您有用，您也必须寻找解决方法。您可以限制输入还是强制转换任何 HTML5？

0赞 Peter Krauss 3/14/2015

不是“任何HTML5”，正如我所说的那样“（...或过滤器丢失虚假信息“，因此，解析器也可以是过滤器。示例：过滤器可以删除 javascript 和其他非内容元素。

0赞 mika 3/14/2015

我读了那个。我问是因为我想知道你正在谈论的复杂解析任务。是什么让你的内容如此特别，以至于解析/转换可能那么困难？

0赞 lossleader 3/16/2015

我同意这个答案的大致方向。但就我个人而言，我会从检查结果开始解析、转换和重新解析（作为 xml），以了解必要更改的程度和基本的测试策略。xmllint

2赞 user3277192 7/10/2015 #2

我不会有一个完整的解决方案。在我看来，这种转变有两个甚至三个阶段：

第 1 阶段：格式化 HTML5

在第一阶段，有一种黑色的艺术，需要满足HTML 5缺乏结构良好的要求。

在你拥有 DOM 之前，在你有机会获得期望远程看起来像 xml 的东西运行的工具之前，你需要这个。

那么谁实现了这样的转换：（几乎？）每个浏览器。相当多的人有源代码。您也可以从正在运行的浏览器中获取此信息：检查源代码，看看它用 Tag soup 作为输入做了什么，你就会得到结构良好的源代码。

另一个可以找到此类源代码的地方是在允许您在网页中编辑 xhtml 的编辑器（FCKeditor 等）

例如被改成<p>para<ul><li>bullet</ul><p>para<p>para</p><ul><li>bullet</li></ul><p>para</p>

第 2 阶段：过滤掉 Polyglot 中不允许的内容

一旦 html 标签结构良好，下一步就是您必须删除多语言标记中不允许的内容，因为 html 解析器和 XML 解析器之间的解释方式存在差异。

您可能有机会使用 XSLT 并构建过滤器，但您无法验证所有过滤器，因为没有 DTD 或任何等效的东西来验证多语言（x）html。即使是现有的少数 xhtml5 验证器也被废弃了，所以这将使你的任务变得困难。

无论如何，尝试找到其中一个存在的验证器的源代码是查找接近此的源代码的最佳选择。

第 3 阶段：修复外部实体

说什么？好吧，您可以拥有漂亮的多语言（x）html 并包含一个执行单个 document.write 的 javascript，但它仍然失败。因此，在它起作用之前，您还需要追捕所有这些。

谢谢（！），让我们看看。阶段 1：我正在使用类似的东西并启用恢复模式......步骤2：在那段时间（~10个月前），我像你描述的那样使用正确的XSLT;第 3 步：没问题，标准 DOM 的内部表示始终是 UTF8，因此或返回良好的 XHTML。DOMDocument::loadHTML($HTML, LIBXML_NOCDATA | LIBXML_NOWARNING |...etc.. )saveXML()C14N()

0赞 Peter Krauss 9/15/2015

...Stage-1 的另一种方法是使用 tidy-html5 及其过滤器从安全的 XHTML 开始。

0赞 9/15/2015

再看一遍，我注意到还需要考虑多语言 xhtml 中的限制，例如不使用某些有效的 xml 但不是有效的 html5 的自闭合实体（例如 ''''<script src=“example” />'''' 不是你想要的 polyglot （x）html。

0赞 9/15/2015

第 3 阶段不仅在于 javascript 可能插入的内容，还在于它如何插入它：在 XML 模式下，document.write 是被禁止的（脚本会失败），即使它插入了完全有效的多语言标记。

1赞 9/16/2015

不得使用 <hr></hr> 语法，但必须在多语言 html 中使用 <hr />。它们被称为“void html elements”。请参阅多语言文档中的第 4.6.1 节，w3.org 您已经在问题中链接。而其他人必须使用<脚本......></script>语法，即使为空。

上一个：如何在XML中使用元视口？

下一个：HTML5 的子集或约束可以完美地映射到 XHTML5 中，反之亦然？

工具（过滤器）将HTML5转换为多语言标记？

Tool (filter) to convert HTML5 into Polyglot Markup?

评论

评论

评论