是否有正则表达式来检测有效的正则表达式?

Is there a regular expression to detect a valid regular expression?

提问人:psytek 提问时间:10/6/2008 最后编辑:xavpsytek 更新时间:2/1/2023 访问量:257617

问:

是否可以将有效的正则表达式与另一个正则表达式一起检测?如果是这样,请在下面给出示例代码。

正则表达式

评论

380赞 bevacqua 7/4/2011
谁来验证验证正则表达式?
17赞 Janusz Lenar 7/29/2012
@Nico社区。
80赞 abesto 11/18/2013
所以你的问题是验证一个正则表达式,你选择了一个正则表达式来解决它。我想知道正则表达式的问题数增加属性是加法还是乘法。感觉就像是 4 个问题而不是 2 个:)
19赞 4/6/2015
正则表达式有许多符号 - 某些特征及其拼写对大多数人来说是通用的,有些拼写不同或仅在一种特定表示法中可用。这些符号中的大多数在常规语法意义上都不是“常规”的——你需要一个上下文无关的解析器来处理子表达式的无界嵌套——尽管许多现代“正则表达式”符号的扩展超出了原始的形式定义,并且可能允许识别它们自己的符号。无论如何,为什么不简单地询问您的正则表达式库是否每个正则表达式有效呢?
8赞 zdim 10/5/2019
在您的语言所具有的异常处理机制下,实际编译/运行要检查的正则表达式(模式)。因此,该语言的正则表达式引擎/编译器本身会对其进行检查。(这假定基本语法正确,以便程序运行,但可以通过使用语言的工具将正则表达式的字符串评估为(可能在语法上是错误的)代码等来包含在检查中。

答:

354赞 Dan 10/6/2008 #1

不可能。

用您的语言提供的任何语言来评估它。try..catch

评论

4赞 SerG 4/8/2021
但是,如果从用户那里收到一个值,他会得到广泛的表面来利用正则表达式引擎中的某些漏洞。
2赞 jsbueno 7/28/2022
但是,是否通过另一个正则表达式“验证”正则表达式对这种正则表达式注入攻击没有影响
1069赞 Markus Jarderot 10/6/2008 #2
/
^                                             # start of string
(                                             # first group start
  (?:
    (?:[^?+*{}()[\]\\|]+                      # literals and ^, $
     | \\.                                    # escaped characters
     | \[ (?: \^?\\. | \^[^\\] | [^\\^] )     # character classes
          (?: [^\]\\]+ | \\. )* \]
     | \( (?:\?[:=!]|\?<[=!]|\?>)? (?1)?? \)  # parenthesis, with recursive content
     | \(\? (?:R|[+-]?\d+) \)                 # recursive matching
     )
    (?: (?:[?+*]|\{\d+(?:,\d*)?\}) [?+]? )?   # quantifiers
  | \|                                        # alternative
  )*                                          # repeat content
)                                             # end first group
$                                             # end of string
/

这是一个递归正则表达式,许多正则表达式引擎都不支持。基于PCRE的应该支持它。

没有空格和注释:

/^((?:(?:[^?+*{}()[\]\\|]+|\\.|\[(?:\^?\\.|\^[^\\]|[^\\^])(?:[^\]\\]+|\\.)*\]|\((?:\?[:=!]|\?<[=!]|\?>)?(?1)??\)|\(\?(?:R|[+-]?\d+)\))(?:(?:[?+*]|\{\d+(?:,\d*)?\})[?+]?)?|\|)*)$/

.NET 不直接支持递归。(和构造。递归必须转换为计数平衡组:(?1)(?R)

^                                         # start of string
(?:
  (?: [^?+*{}()[\]\\|]+                   # literals and ^, $
   | \\.                                  # escaped characters
   | \[ (?: \^?\\. | \^[^\\] | [^\\^] )   # character classes
        (?: [^\]\\]+ | \\. )* \]
   | \( (?:\?[:=!]
         | \?<[=!]
         | \?>
         | \?<[^\W\d]\w*>
         | \?'[^\W\d]\w*'
         )?                               # opening of group
     (?<N>)                               #   increment counter
   | \)                                   # closing of group
     (?<-N>)                              #   decrement counter
   )
  (?: (?:[?+*]|\{\d+(?:,\d*)?\}) [?+]? )? # quantifiers
| \|                                      # alternative
)*                                        # repeat content
$                                         # end of string
(?(N)(?!))                                # fail if counter is non-zero.

压 实:

^(?:(?:[^?+*{}()[\]\\|]+|\\.|\[(?:\^?\\.|\^[^\\]|[^\\^])(?:[^\]\\]+|\\.)*\]|\((?:\?[:=!]|\?<[=!]|\?>|\?<[^\W\d]\w*>|\?'[^\W\d]\w*')?(?<N>)|\)(?<-N>))(?:(?:[?+*]|\{\d+(?:,\d*)?\})[?+]?)?|\|)*$(?(N)(?!))

从评论:

这会验证替换和翻译吗?

它将仅验证替换和转换的正则表达式部分。s/<this part>/.../

从理论上讲,不可能将所有有效的正则表达式语法与正则表达式匹配。

如果正则表达式引擎支持递归,例如 PCRE,这是可能的,但这不能再称为正则表达式了。

事实上,“递归正则表达式”不是正则表达式。但这是对正则表达式引擎的一个经常被接受的扩展......具有讽刺意味的是,此扩展正则表达式与扩展正则表达式不匹配。

“理论上,理论和实践是一样的。实际上,事实并非如此。几乎每个了解正则表达式的人都知道正则表达式不支持递归。但 PCRE 和大多数其他实现支持的不仅仅是基本的正则表达式。

在 grep 命令中将其与 shell 脚本一起使用,它向我显示了一些错误。grep:{} 的内容无效。我正在制作一个脚本,该脚本可以 grep 代码库以查找包含正则表达式的所有文件

此模式利用称为递归正则表达式的扩展。正则表达式的 POSIX 风格不支持这一点。您可以尝试使用 -P 开关来启用 PCRE 正则表达式风格。

正则表达式本身“不是一种常规语言,因此不能通过正则表达式解析......”

这适用于经典正则表达式。一些现代实现允许递归,这使它成为一种上下文无关的语言,尽管它对于这个任务来说有些冗长。

我看到你匹配的地方.和其他特殊的正则表达式字符。在哪里允许使用非特殊字符?似乎这会匹配,但不是.这是一个有效的正则表达式。[]()/\^(?:[\.]+)$^abcdefg$

[^?+*{}()[\]\\|]将匹配任何单个字符,而不是任何其他构造的一部分。这包括文字 ( - ) 和某些特殊字符 (, , )。az^$.

评论

21赞 vitaly-t 1/3/2016
这个答案把人们推向了完全错误的方向。他们永远不应该使用正则表达式来定位正则表达式,因为它不可能在所有情况下都能正常工作。看到我添加的答案。
3赞 yunzen 3/16/2017
.{,1}无与伦比。更改为匹配项。CHange 到^((?:(?:[^?+*{}()[\]\\|]+|\\.|\[(?:\^?\\.|\^[^\\]|[^\\^])(?:[^\]\\]+|\\.)*\]|\((?:\?[:=!]|\?<[=!]|\?>)?(?1)??\)|\(\?(?:R|[+-]?\d+)\))(?:(?:[?+*]|\{\d*(?:,\d*)?\})[?+]?)?|\|)*)$\d+\d*
7赞 Charlie Parker 6/11/2017
def 的正则表达式不应该有递归,至少在你的答案中说这样的话,你的正则表达式引擎可能“太强大”了,而不是真正的正则表达式引擎。
2赞 Peter V. Mørch 1/6/2021
@vitaly-t:你的答案在哪里?
3赞 vitaly-t 1/6/2021
@PeterV.Mørch 我删除了它,因为奇怪的是,它收到了很多反对票。在这里,我将我的答案复制到了 Gist
62赞 I GIVE CRAP ANSWERS 10/6/2008 #3

问得好。

真正的常规语言不能任意决定深度嵌套的格式良好的括号。如果您的字母表包含并且目标是确定其中的字符串是否具有格式正确的匹配括号。由于这是正则表达式的必要条件,因此答案是否定的。'('')'

但是,如果您放宽要求并添加递归,您可能可以做到。原因是递归可以充当堆栈,让您通过推送到该堆栈来“计算”当前嵌套深度。

Russ Cox 写了“正则表达式匹配可以简单快速”,这是一篇关于正则表达式引擎实现的精彩论文。

评论

0赞 Peter Thoeny 2/11/2021
完全。您可以使用正则表达式将括号/括号与嵌套级别进行注释,然后使用正则表达式进行递归函数调用以匹配对,并解析/验证相关正则表达式 -- 请参阅 stackoverflow.com/a/66130030/7475450
245赞 JaredPar 10/6/2008 #4

不可以,如果你严格来说是正则表达式,而不包括一些实际上是上下文无关语法的正则表达式实现。

正则表达式有一个限制,这使得无法编写与所有且仅匹配正则表达式的正则表达式。您无法匹配成对的大括号等实现。正则表达式使用了很多这样的结构,让我们举个例子。只要有匹配,就必须有一个匹配,这对于正则表达式来说已经足够简单了。[][]"\[.*\]"

正则表达式之所以不可能,是因为它们可以嵌套。如何编写与嵌套括号匹配的正则表达式?答案是你不能没有无限长的正则表达式。您可以通过暴力破解匹配任意数量的嵌套括号,但永远无法匹配任意长的嵌套括号集。

此功能通常称为计数,因为您正在计算嵌套的深度。根据定义,正则表达式不具有计数功能。


我最终写了关于这个的“正则表达式限制”。

评论

1赞 Vérace 1/18/2021
你有没有用你在上面引用的文章中提到的递归正则表达式写这篇文章()?In a future (hopefully soon) post I will explore the recursive extensions to the .Net regular expression language.
1赞 Peter Thoeny 2/11/2021
使用递归正则表达式,正如 @Markus Jarderot 在他的回答中指出的那样。或者,使用正则表达式用嵌套级别注释括号/括号,然后使用正则表达式进行递归函数调用以匹配对,并解析/验证有问题的正则表达式 -- 参见 stackoverflow.com/a/66130030/7475450
16赞 Santiago Palladino 10/6/2008 #5

尽管完全可以使用递归正则表达式,如MizardX所发布的那样,但对于这种事情,解析器更有用。正则表达式最初旨在与常规语言一起使用,递归或具有平衡组只是一个补丁。

定义有效正则表达式的语言实际上是一种上下文无关的语法,您应该使用适当的解析器来处理它。下面是一个大学项目的示例,用于解析简单的正则表达式(没有大多数构造)。它使用 JavaCC。是的,注释是西班牙语的,尽管方法名称是不言自明的。

SKIP :
{
    " "
|   "\r"
|   "\t"
|   "\n"
}
TOKEN : 
{
    < DIGITO: ["0" - "9"] >
|   < MAYUSCULA: ["A" - "Z"] >
|   < MINUSCULA: ["a" - "z"] >
|   < LAMBDA: "LAMBDA" >
|   < VACIO: "VACIO" >
}

IRegularExpression Expression() :
{
    IRegularExpression r; 
}
{
    r=Alternation() { return r; }
}

// Matchea disyunciones: ER | ER
IRegularExpression Alternation() :
{
    IRegularExpression r1 = null, r2 = null; 
}
{
    r1=Concatenation() ( "|" r2=Alternation() )?
    { 
        if (r2 == null) {
            return r1;
        } else {
            return createAlternation(r1,r2);
        } 
    }
}

// Matchea concatenaciones: ER.ER
IRegularExpression Concatenation() :
{
    IRegularExpression r1 = null, r2 = null; 
}
{
    r1=Repetition() ( "." r2=Repetition() { r1 = createConcatenation(r1,r2); } )*
    { return r1; }
}

// Matchea repeticiones: ER*
IRegularExpression Repetition() :
{
    IRegularExpression r; 
}
{
    r=Atom() ( "*" { r = createRepetition(r); } )*
    { return r; }
}

// Matchea regex atomicas: (ER), Terminal, Vacio, Lambda
IRegularExpression Atom() :
{
    String t;
    IRegularExpression r;
}
{
    ( "(" r=Expression() ")" {return r;}) 
    | t=Terminal() { return createTerminal(t); }
    | <LAMBDA> { return createLambda(); }
    | <VACIO> { return createEmpty(); }
}

// Matchea un terminal (digito o minuscula) y devuelve su valor
String Terminal() :
{
    Token t;
}
{
    ( t=<DIGITO> | t=<MINUSCULA> ) { return t.image; }
}

评论

2赞 Heriberto Lugo 3/31/2021
给任何对此感兴趣的非西班牙人。Matchea 的意思是“火柴”,Vacio 的意思是“空的”,Digio 的意思是“数字”,miniscula 的意思是“小写”。Matchea disyunciones = 匹配分离。Matchea concatenaciones = 匹配串联。抹茶重复 = 匹配重复。抹茶正则表达式原子 = 匹配原子正则表达式。Matchea un terminal (digito o minuscula) y devuelve su valor = 匹配一个终端(数字或小写)并返回其值。
0赞 juandesant 7/19/2023
Matchear 不是西班牙语,但我明白它是从哪里来的......“matches”的正确西班牙语是“coincide con”(matches)。
7赞 PaulMcG 5/25/2010 #6

Paul McGuire 的以下示例最初来自 pyparsing wiki,但现在只能通过 Wayback Machine 获得,它给出了解析某些正则表达式的语法,以便返回匹配字符串集。因此,它拒绝那些包含无限重复项的 re,例如“+”和“*”。但它应该让你了解如何构建一个处理 re 的解析器。

# 
# invRegex.py
#
# Copyright 2008, Paul McGuire
#
# pyparsing script to expand a regular expression into all possible matching strings
# Supports:
# - {n} and {m,n} repetition, but not unbounded + or * repetition
# - ? optional elements
# - [] character ranges
# - () grouping
# - | alternation
#
__all__ = ["count","invert"]

from pyparsing import (Literal, oneOf, printables, ParserElement, Combine, 
    SkipTo, operatorPrecedence, ParseFatalException, Word, nums, opAssoc,
    Suppress, ParseResults, srange)

class CharacterRangeEmitter(object):
    def __init__(self,chars):
        # remove duplicate chars in character range, but preserve original order
        seen = set()
        self.charset = "".join( seen.add(c) or c for c in chars if c not in seen )
    def __str__(self):
        return '['+self.charset+']'
    def __repr__(self):
        return '['+self.charset+']'
    def makeGenerator(self):
        def genChars():
            for s in self.charset:
                yield s
        return genChars

class OptionalEmitter(object):
    def __init__(self,expr):
        self.expr = expr
    def makeGenerator(self):
        def optionalGen():
            yield ""
            for s in self.expr.makeGenerator()():
                yield s
        return optionalGen

class DotEmitter(object):
    def makeGenerator(self):
        def dotGen():
            for c in printables:
                yield c
        return dotGen

class GroupEmitter(object):
    def __init__(self,exprs):
        self.exprs = ParseResults(exprs)
    def makeGenerator(self):
        def groupGen():
            def recurseList(elist):
                if len(elist)==1:
                    for s in elist[0].makeGenerator()():
                        yield s
                else:
                    for s in elist[0].makeGenerator()():
                        for s2 in recurseList(elist[1:]):
                            yield s + s2
            if self.exprs:
                for s in recurseList(self.exprs):
                    yield s
        return groupGen

class AlternativeEmitter(object):
    def __init__(self,exprs):
        self.exprs = exprs
    def makeGenerator(self):
        def altGen():
            for e in self.exprs:
                for s in e.makeGenerator()():
                    yield s
        return altGen

class LiteralEmitter(object):
    def __init__(self,lit):
        self.lit = lit
    def __str__(self):
        return "Lit:"+self.lit
    def __repr__(self):
        return "Lit:"+self.lit
    def makeGenerator(self):
        def litGen():
            yield self.lit
        return litGen

def handleRange(toks):
    return CharacterRangeEmitter(srange(toks[0]))

def handleRepetition(toks):
    toks=toks[0]
    if toks[1] in "*+":
        raise ParseFatalException("",0,"unbounded repetition operators not supported")
    if toks[1] == "?":
        return OptionalEmitter(toks[0])
    if "count" in toks:
        return GroupEmitter([toks[0]] * int(toks.count))
    if "minCount" in toks:
        mincount = int(toks.minCount)
        maxcount = int(toks.maxCount)
        optcount = maxcount - mincount
        if optcount:
            opt = OptionalEmitter(toks[0])
            for i in range(1,optcount):
                opt = OptionalEmitter(GroupEmitter([toks[0],opt]))
            return GroupEmitter([toks[0]] * mincount + [opt])
        else:
            return [toks[0]] * mincount

def handleLiteral(toks):
    lit = ""
    for t in toks:
        if t[0] == "\\":
            if t[1] == "t":
                lit += '\t'
            else:
                lit += t[1]
        else:
            lit += t
    return LiteralEmitter(lit)    

def handleMacro(toks):
    macroChar = toks[0][1]
    if macroChar == "d":
        return CharacterRangeEmitter("0123456789")
    elif macroChar == "w":
        return CharacterRangeEmitter(srange("[A-Za-z0-9_]"))
    elif macroChar == "s":
        return LiteralEmitter(" ")
    else:
        raise ParseFatalException("",0,"unsupported macro character (" + macroChar + ")")

def handleSequence(toks):
    return GroupEmitter(toks[0])

def handleDot():
    return CharacterRangeEmitter(printables)

def handleAlternative(toks):
    return AlternativeEmitter(toks[0])


_parser = None
def parser():
    global _parser
    if _parser is None:
        ParserElement.setDefaultWhitespaceChars("")
        lbrack,rbrack,lbrace,rbrace,lparen,rparen = map(Literal,"[]{}()")

        reMacro = Combine("\\" + oneOf(list("dws")))
        escapedChar = ~reMacro + Combine("\\" + oneOf(list(printables)))
        reLiteralChar = "".join(c for c in printables if c not in r"\[]{}().*?+|") + " \t"

        reRange = Combine(lbrack + SkipTo(rbrack,ignore=escapedChar) + rbrack)
        reLiteral = ( escapedChar | oneOf(list(reLiteralChar)) )
        reDot = Literal(".")
        repetition = (
            ( lbrace + Word(nums).setResultsName("count") + rbrace ) |
            ( lbrace + Word(nums).setResultsName("minCount")+","+ Word(nums).setResultsName("maxCount") + rbrace ) |
            oneOf(list("*+?")) 
            )

        reRange.setParseAction(handleRange)
        reLiteral.setParseAction(handleLiteral)
        reMacro.setParseAction(handleMacro)
        reDot.setParseAction(handleDot)

        reTerm = ( reLiteral | reRange | reMacro | reDot )
        reExpr = operatorPrecedence( reTerm,
            [
            (repetition, 1, opAssoc.LEFT, handleRepetition),
            (None, 2, opAssoc.LEFT, handleSequence),
            (Suppress('|'), 2, opAssoc.LEFT, handleAlternative),
            ]
            )
        _parser = reExpr

    return _parser

def count(gen):
    """Simple function to count the number of elements returned by a generator."""
    i = 0
    for s in gen:
        i += 1
    return i

def invert(regex):
    """Call this routine as a generator to return all the strings that
       match the input regular expression.
           for s in invert("[A-Z]{3}\d{3}"):
               print s
    """
    invReGenerator = GroupEmitter(parser().parseString(regex)).makeGenerator()
    return invReGenerator()

def main():
    tests = r"""
    [A-EA]
    [A-D]*
    [A-D]{3}
    X[A-C]{3}Y
    X[A-C]{3}\(
    X\d
    foobar\d\d
    foobar{2}
    foobar{2,9}
    fooba[rz]{2}
    (foobar){2}
    ([01]\d)|(2[0-5])
    ([01]\d\d)|(2[0-4]\d)|(25[0-5])
    [A-C]{1,2}
    [A-C]{0,3}
    [A-C]\s[A-C]\s[A-C]
    [A-C]\s?[A-C][A-C]
    [A-C]\s([A-C][A-C])
    [A-C]\s([A-C][A-C])?
    [A-C]{2}\d{2}
    @|TH[12]
    @(@|TH[12])?
    @(@|TH[12]|AL[12]|SP[123]|TB(1[0-9]?|20?|[3-9]))?
    @(@|TH[12]|AL[12]|SP[123]|TB(1[0-9]?|20?|[3-9])|OH(1[0-9]?|2[0-9]?|30?|[4-9]))?
    (([ECMP]|HA|AK)[SD]|HS)T
    [A-CV]{2}
    A[cglmrstu]|B[aehikr]?|C[adeflmorsu]?|D[bsy]|E[rsu]|F[emr]?|G[ade]|H[efgos]?|I[nr]?|Kr?|L[airu]|M[dgnot]|N[abdeiop]?|Os?|P[abdmortu]?|R[abefghnu]|S[bcegimnr]?|T[abcehilm]|Uu[bhopqst]|U|V|W|Xe|Yb?|Z[nr]
    (a|b)|(x|y)
    (a|b) (x|y)
    """.split('\n')

    for t in tests:
        t = t.strip()
        if not t: continue
        print '-'*50
        print t
        try:
            print count(invert(t))
            for s in invert(t):
                print s
        except ParseFatalException,pfe:
            print pfe.msg
            print
            continue
        print

if __name__ == "__main__":
    main()
14赞 Richard - Rogue Wave Limited 8/29/2011 #7

您可以提交正则表达式,如果正则表达式无效,则该正则表达式将返回 false。不要忘记使用 to 抑制错误消息:preg_match@

@preg_match($regexToTest, '');
  • 如果正则表达式为 。//
  • 如果正则表达式正常,将返回 0。
  • 否则将返回 false。
22赞 Davide Visentin 4/8/2019 #8

否,如果您使用标准正则表达式。

原因是您无法满足常规语言的抽水引理。抽取引理指出,如果存在一个数字“N”,则属于语言“L”的字符串是正则的,这样,在将字符串分成三个子字符串 、 、 之后,您可以根据需要重复多次,并且整个字符串仍将属于 。xyz|x|>=1 && |xy|<=NyL

抽取引理的结果是,你不能有 形式的规则字符串,即两个长度相同的子字符串被另一个字符串分隔。无论如何,你把这些字符串分成 ,和 ,你不能“抽”,除非得到一个具有不同数量的 “a” 和 “c” 的字符串,从而留下原始语言。例如,正则表达式中的括号就是这种情况。a^Nb^Mc^Nxyzy

评论

8赞 darij grinberg 9/8/2019
这不是对抽水引理的非常精确的描述。首先,它是整个语言可以是规则的,也可以是不规则的,而不是单个字符串。其次,它是规律性的必要条件,而不是充分条件。最后,只有足够长的琴弦是可抽水的。
4赞 Charanjit Singh 4/9/2021 #9

在 Javascript 中:

SyntaxError

在传递无效的正则表达式进行计算时引发。

// VALID ONE
> /yes[^]*day/
Out: /yes[^]*day/

// INVALID ONE
> /yes[^*day/
Out: VM227:1 Uncaught SyntaxError: Invalid regular expression: missing /

下面是检查正则表达式字符串是否有效的函数:

第 1 步:正则表达式解析器

var RegexParser = function(input) {

    // Parse input
    var m = input.match(/(\/?)(.+)\1([a-z]*)/i);

    // Invalid flags
    if (m[3] && !/^(?!.*?(.).*?\1)[gmixXsuUAJ]+$/.test(m[3])) {
        return RegExp(input);
    }

    // Create the regular expression
    return new RegExp(m[2], m[3]);
};

第 2 步:使用解析器

var RegexString = "/yes.*day/"

var isRegexValid = input => {
 try {
 const regex = RegexParser(input);
 }
 catch(error) {
   if(error.name === "SyntaxError") 
    {
      return false;
    }
    else 
    {
     throw error;
    }
 }
 return true;
}

0赞 Ensai Tankado 2/1/2023 #10

使用此版本,您可以使用 php 检查正则表达式的字符串 - 我采用了上面的例子并进行了一些修改:

$re = '/((?:(?:[^?+*{}()[\]\\\\|]+|\\\\.|\[(?:\^?\\\\.|\^[^\\\\]|[^\\\\^])(?:[^\]\\\\]+|\\\\.)*\]|\((?:\?[:=!]|\?<[=!]|\?>)??\)|\(\?(?:R|[+-]?\d+)\))(?:(?:[?+*]|\{\d*(?:,\d*)?\})[?+]?)?|\|)*)/';
$str = '[0-9]{1,}[a-z]';

preg_match($re, $str, $matches, PREG_OFFSET_CAPTURE, 0);

$length = strlen($str);
$length2 = strlen($matches[0][0]);

if($length == $length2) {

   echo "is regex";

} else {

   echo "is no regex";

}