可变顺序正则表达式语法-解网

问：

有没有办法指示两个或多个正则表达式短语可以按任何顺序出现？例如，XML 属性可以按任何顺序编写。假设我有以下 XML：

<a href="home.php" class="link" title="Home">Home</a>
<a href="home.php" title="Home" class="link">Home</a>

我将如何编写一个检查类和标题并适用于这两种情况的匹配项？我主要在寻找允许我按任何顺序检查的语法，而不仅仅是匹配类和标题，因为我可以做到这一点。除了包含这两种组合并用“|”连接它们之外，还有什么方法吗？

编辑：我更喜欢在单个正则表达式中执行此操作，因为我正在以编程方式构建它并对其进行单元测试。

正则表达 HTML 解析

不，你不能这样做。这是您不使用正则表达式来解析 HTML（或 XML）的原因之一。使用适当的 HTML 解析模块。你无法可靠地使用正则表达式解析 HTML，并且你将面临悲伤和沮丧。一旦 HTML 从您的期望中改变，您的代码就会被破坏。请参阅 htmlparsing.com/php，了解如何使用已经编写、测试和调试的 PHP 模块正确解析 HTML。

0赞 Chas. Owens 3/31/2009

这是正则表达式不适合解析 XML 或 HTML 的众多原因之一。

0赞 Rick 8/19/2010

正则表达式不是一种编程语言，你必须有像布什上面说@Josh的东西。它不应该是一个神奇的工具，可以在没有任何编程来控制它的情况下为您解析事物

0赞 Chas. Owens 8/19/2010

@Rick 当你最终得到一组正则表达式和控制代码，使其能够正确处理HTML或XML时，你将拥有一个解析器。当我们已经有这么多好的解析器时，为什么要编写一个新的解析器？

答：

1赞 Kibbee 3/31/2009 #1

最简单的方法是编写一个拾取部分的正则表达式，然后再编写两个正则表达式来提取类和标题。虽然你可以用一个正则表达式来做到这一点，但它会非常复杂，而且可能更容易出错。<a .... >

使用单个正则表达式，您将需要类似

<a[^>]*((class="([^"]*)")|(title="([^"]*)"))?((title="([^"]*)")|(class="([^"]*)"))?[^>]*>

这只是第一手的猜测，没有检查它是否有效。分而治之要容易得多。

仅解析特定属性的 XML 并不总是“傻瓜游戏”，对于某些事情，如果您使用适当的过程（首先标记化等），它真的没有那么复杂，也许它不是效率的最佳选择，但如果您只是想获得一些特定的东西，它不是一项艰巨的任务，因为您已经做到了，并且可能比找到一个像样的解析器并学习其语法只是为了做一些简单的事情更快

2赞 Josh Bush 3/31/2009 #4

您可以使用命名组将属性从标记中提取出来。运行正则表达式，然后循环访问执行所需任何测试的组。

像这样的东西（未经测试，使用 .net 正则表达式语法，其中 \w 表示单词字符，\s 表示空格）：

<a ((?<key>\w+)\s?=\s?['"](?<value>\w+)['"])+ />

input = <<LINES
123-abc-456-abc-789-abc-0AB
123-abc-456-abc-789-def-0AB
123-abc-456-abc-789-ghi-0AB
123-abc-456-def-789-abc-0AB
123-abc-456-def-789-def-0AB
123-abc-456-def-789-ghi-0AB
123-abc-456-ghi-789-abc-0AB
123-abc-456-ghi-789-def-0AB
123-abc-456-ghi-789-ghi-0AB
123-def-456-abc-789-abc-0AB
123-def-456-abc-789-def-0AB
123-def-456-abc-789-ghi-0AB
123-def-456-def-789-abc-0AB
123-def-456-def-789-def-0AB
123-def-456-def-789-ghi-0AB
123-def-456-ghi-789-abc-0AB
123-def-456-ghi-789-def-0AB
123-def-456-ghi-789-ghi-0AB
123-ghi-456-abc-789-abc-0AB
123-ghi-456-abc-789-def-0AB
123-ghi-456-abc-789-ghi-0AB
123-ghi-456-def-789-abc-0AB
123-ghi-456-def-789-def-0AB
123-ghi-456-def-789-ghi-0AB
123-ghi-456-ghi-789-abc-0AB
123-ghi-456-ghi-789-def-0AB
123-ghi-456-ghi-789-ghi-0AB
LINES

# outputs only the permutations
puts input.grep(/123-(abc|def|ghi)-456-(?!\1)(abc|def|ghi)-789-(?!\1|\2)(abc|def|ghi)-0AB/)

对于五个元素的排列，它将是：

/1-(abc|def|ghi|jkl|mno)-
 2-(?!\1)(abc|def|ghi|jkl|mno)-
 3-(?!\1|\2)(abc|def|ghi|jkl|mno)-
 4-(?!\1|\2|\3)(abc|def|ghi|jkl|mno)-
 5-(?!\1|\2|\3|\4)(abc|def|ghi|jkl|mno)-6/x

对于您的示例，正则表达式将是

/<a href="home.php" (class="link"|title="Home") (?!\1)(class="link"|title="Home")>Home<\/a>/

4赞 Alan Moore 3/31/2009 #6

您可以为每个属性创建一个前瞻，并将它们插入到整个标签的正则表达式中。例如，标记的正则表达式可以是

<a\b[^<>]*>

如果你在XML上使用它，你可能需要一些更复杂的东西。就其本身而言，此基本正则表达式将与具有零个或多个属性的标签匹配。然后，为要匹配的每个属性添加一个 lookhead：

(?=[^<>]*\s+class="link")
(?=[^<>]*\s+title="Home")

允许它向前扫描属性，但不会让它超出右尖括号。在前瞻中匹配前导空格有两个目的：它比在基本正则表达式中匹配它更灵活，并且它确保我们匹配整个属性名称。将它们结合起来，我们得到：[^<>]*

<a\b(?=[^<>]*\s+class="link")(?=[^<>]*\s+title="Home")[^<>]+>[^<>]+</a>

当然，为了清楚起见，我做了一些简化的假设。我不允许在等号周围使用空格，不允许在属性值周围使用单引号或不使用引号，也不允许在属性值中使用尖括号（我听说这是合法的，但我从未见过这样做）。堵住这些泄漏（如果需要）会使正则表达式更丑陋，但不需要更改基本结构。

5赞 user74455 3/31/2009 #7

你考虑过xpath吗？（其中属性顺序无关紧要）

//a[@class and @title]

将选择两个节点作为有效匹配项。唯一需要注意的是，输入必须是 xhtml（格式正确的 xml）。<a>

上一个：用于从 HTML 标签汤生成 .NET XmlDocument 的库

下一个：如何在 HTML 文件中搜索某些标签？

可变顺序正则表达式语法

Variable order regex syntax

评论

评论

评论

评论