正则指引之量词

2020-06-24 原文

一般形式

假如我们要验证邮政编码：201203，100858，所以用正则表达式来表示就是 \d\d\d\d\d\d，只有同时满足“长度是6个字符”和“每个字符都是数字”两个条件，匹配才成功。虽然这不难理解，但 \d 重复6次，读写都不方便。为此，正则表达式提供了量词（quantifier）。那么上面的例子就可以简写为 \d{6}，它使用阿拉伯数字，更简洁也更直观。

//使用量词减化字符组
Stringtext="510850";
Patternp=Pattern.compile("\\d{6}");
Matcherm=p.matcher(text);
System.out.println(m.matches());//true

量词还可以表示不确定的长度，其通用形式是{m,n}，其中m和n是两个数字（有些人习惯在代码中的逗号之后添加空格，这样更好看，但是量词中的逗号之后绝不能有空格），它限定之前的元素能够出现的次数，m是下限，n是上限（均为闭区间）。比如 \d{4,6}，就表示这个数字字符串的长度最短是4个字符，最长是6个字符。如果不确定长度的上限，也可以省略，只指定下限，写成 \d{n,}，比如 \d{4,}表示“数字字符串的长度必须在4个字符以上”。

量词	说明
{n}	之前的元素必须出现n次
之前的元素最少出现m次，最多出现n次
之前的元素最少出现m次，出现次数无上限
{0,n}	之前的元素可以不出现，也可以出现，最多出现n次

常用量词

{m,n}是通用形式的量词，正则表达式还有三个常用量词，分别是 +，?，* 。它们的形态虽然不同于{m,n}，功能却是相同的（也可以把它们理解为“量词简记法”），具体说明如下：

常用量词	{m,n}等价形式	＊	{0,}	可能出现，也可能不出现，出现次数没有上限
＋	{1,}	至少出现1次，出现次数没有上限
？	{0,1}	至多出现一次，也可能不出现

在实际应用中，在很多情况下只需要表示这三种意思，所以常用量词的使用频率要高于{m,n}。

点号

前一节讲到了各种字符组，与它相关的还有一个特殊的元字符：点号（.）。一般文档都说，点号可以匹配“任意字符”，点号确实可以匹配“任意字符”，常见的数字，字母，各种符号都可以匹配，但有一个字符不能由点号匹配，就是换行符 \n。这个字符平时看不见，却存在，而且在处理时并不能忽略。

如果非要匹配“任意字符”，有两种办法：可以指定使用单行匹配模式，在这种模式下，点号可以匹配换行符；或者使用上一节介绍“自制”通配字符组 [\s\S] （也可以使用 [\d\D]或[\w\W]），正好涵盖了所有字符。示例：

//换行符的匹配
Stringtext="\n";
Patternp=Pattern.compile("[\\d\\D]");
Matcherm=p.matcher(text);
System.out.println(m.matches());//true
Patternp1=Pattern.compile(".");
Matcherm1=p1.matcher(text);
System.out.println(m1.matches());//false

滥用点号的问题

因为点号能匹配几乎所有的字符，所以实际应用中许多人图省事，随意使用 .* 或 .+ ，结果却事与愿违，下面以双引号字符串为例来说明。我们一般使用表达式 ”[^"]*" 匹配双引号字符串，而“图省事” 的做法是 “.*” 。通常这么用是没有问题的，但也可能有意外。

用“.*”匹配双引号字符串，不但可以匹配正常的双引号字符串“quoted string”，还可以匹配格式错误的字符串 "quoted string" and another" 。这是为什么呢？原因涉及正则表达式的匹配原理。

在正则表达式 “.*” 中，点号可以匹配任何字符，*表示可以匹配的字符串长度没有限制，所以 .* 在匹配过程结束以前，每遇到一个字符（除去无法匹配的 \n），.*都可以匹配，但是遇到第一个 " 时，到底是匹配这个字符还是忽略它，还是将其交给之后的 " 来匹配呢？

答案是，具体选择取决于所使用的量词。在正则表达式中的量词分为几类，之前介绍的量词都可以归到一类，叫做匹配优先量词（贪婪量词）。匹配优先量词，顾名思义，就是在拿不准是否要匹配的时候，优先尝试匹配，并且记下这个状态，以备将来“反悔”。

来看表达式“.*”对字符串“quoted string”的匹配过程。一开始， “ 匹配 “ ，然后轮到字符q，.*可以匹配它，也可以不匹配，因为使用了匹配优先量词，所以.*先匹配q，并且记录下这个状态「q也可能是.*不应该匹配的」；接下来是字符u，.*可以匹配它，也可以不匹配，因为使用了匹配优先量词，所以.*先匹配u，并且记录下这个状态『u也可能是.*不应该匹配的』； .......现在轮到了字符g，.*可以匹配它，也可以不匹配，因为使用了匹配优先量词，所以 .*先匹配g，并且记录下这个状态『g也可能是.*不应该匹配的』。最后是末尾的"，.*可以匹配它，也可以不匹配，因为使用了匹配优先量词，所以.*先匹配 “，并且记录下这个状态『'也可能是.*不应该匹配的』。这时候，字符串之后已经没有字符了，但正则表达式中还有 ” 没有匹配，所以只能查询之前保存备用的状态，看看能不能退回几步，照顾 " 的匹配。查询到最近保存的状态是：「"也可能是.*不应该匹配的」。于是让.* 反悔对 " 的匹配，把 " 交给 “ ，测试发现正好能匹配，所以整个匹配宣告成功。这个反悔的过程，专业术语叫做回溯（backtracking）。

忽略优先量词

比如，用一个正则表达式匹配下面这段HTML源代码：

<scripttype="text/javascript">
alert("somepunctuation<>/");
</script>

开头和结尾的tag都容易匹配，中间的代码要比较麻烦，因为点号. 不能匹配换行符，所以必须使用[\s\S]，[\d\D]或者[\w\W]。

<scripttype="text/javascript">[\s\S]*</script>

这个表达式确实可以匹配上面的Javascript代码。但是如果遇到更复杂的情况就会出错，比如针对下面这段HTML代码：

<scripttype="text/javascript">
alert("1");
</script>
<br/>
<scripttype="text/javascript">
alert("2");
</script>

如果用上面的表达式来匹配这段HTML代码，会一次性匹配两段Javascript代码，甚至包含之间的非Javascript代码。按照匹配原理，[\s\S]＊先匹配所有的文本，回溯时交还最后的</script>，整个表达式的匹配就成功了，逻辑就是如此，无可改进。而且，这个问题也不能模仿之前双引号字符串匹配，用[^"]*区配<script...>和</script>之间的代码，因为排除型字符组只能排除单个字符，[^</script>]不能表示“不是</script>的字符串”。

换个角度来看，通过改变[\s\S]*的匹配策略解决问题：在不确定是否要匹配的场合，先尝试不匹配的选择，测试正则表达式中后面的元素，如果失败，再退回来尝试 [\s\S]* 匹配，如此就没有问题了。循着这个思路，正则表达式中还提供了忽略优先量词（lazy quantifier 或 reluctant quantifier，也就有翻译为懒惰量词），如果不确定是否要匹配，忽略优先量词会选择“不匹配”的状态，再尝试表达式中之后的元素，如果尝试失败，再回溯，选择之前保存的“匹配”的状态。

对[\s\S]*来说，把*改为*?就是使用了忽略优先量词，*?限定的元素出现次数范围与*完全一样，都表示“可能出现，也可能不出现，出现次数没有上限”。区别在于，在实际匹配过程中，遇到[\s\S]能匹配的字符，先尝试“忽略”，如果后面的元素（具体到这个表达式中，是</script>）不能匹配，再尝试匹配，这样就保证了结果的正确性，示例如下：

//忽略优先量词
Stringtext="<scripttype=\"text/javascript\">"+
"alert(\"1\")"+
"</script>"+
"<br/>"+
"<scripttype=\"text/javascript\">"+
"alert(\"2\")"+
"</script>";
Patternp=Pattern.compile("<scripttype=\"text/javascript\">[\\s\\S]*?</script>");
Matcherm=p.matcher(text);
while(m.find()){
System.out.println(m.group());
}

表：匹配优先量词与忽略优先量词

匹配优先量词	忽略优先量词	限定次数
*	*?	可能不出现，也可能出现，出现次数没有上限
+	+?	至少出现1次，出现次数没有上限
?	??	至多出现1次，也可能不出现
出现次数最少为m次，最多为n次
出现次数最少为m次，没有上限
可能不出现，也可能出现，最多出现n次

从上表可以看到，匹配优先量词与忽略优先量词逐一对应，只是在对应的匹配优先量词之后添加?，两者限定的元素能出现的次数也一样，遇到不能匹配的情况同样需要回溯；唯一的区别在于，忽略优先量词会优先选择“忽略”，而匹配优先量词会优先选择“匹配”。

转义

前面讲解了匹配优先量词和忽略优先量词，现在介绍量词的转义。在正则表达式中，*，+，?等作为量词的字符具有特殊意义，但有些情况下只希望表示这些字符本身，此时就必须使用转义，也就是在它们之前添加反斜线 \ 。

对常用量词所使用的字符+，＊，? 来说，如果希望表示这三个字符本身，直接添加反斜线，变为 \+，\*，\? 即可。但是在一般形式的量词{m,n}中，虽然具有特殊含义的字符不止一个，转义时却只需要给第一个 { 添加反斜线即可，也就是说，如果希望匹配字符串{m,n}，正则表达式必须写成 \{m,n} 。

另外值得一提的是忽略优先量词的转义，虽然忽略优先量词也包含不只一个字符，但是在转义时却不像一般形式的量词那样，只转义第一个字符即可，而需要将两个量词全部转义。举例来说，如果要匹配字符串 *?，正则表达式就必须写作 \*\? ，而不是 \*? ，因为后者的意思是“*这个字符可能出现，也可能不出现”。各种量词的转义如下：

转义形式
{n}	\{n}
\{m,n}
\{0,0);">*	\*
\+
\?
*?	*\\?**
+?	\+\?
??	\?\?

之前还介绍了点号 . ，所以还必须讲解点号的转义：点号（.）是一个元字符，它可以匹配除换行符之外的任何字符，所以如果只想匹配点号本身，必须将它转义为 \. 。因为未转义的点号可以匹配任何字符，其中也可以包含点号，所以经常有人忽略了对点号的转义。

正则指引之量词的更多相关文章

Html5 canvas实现粒子时钟的示例代码

这篇文章主要介绍了Html5 canvas实现粒子时钟的示例代码,小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
HTML5数字输入仅接受整数的实现代码

这篇文章主要介绍了HTML5数字输入仅接受整数的实现代码,本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
ios – 使用大写符号在字符串swift中获取URL的正则表达式

我尝试在文本中获取URL.所以,在此之前,我使用了这样一个表达式：但是当用户输入带有大写符号的URL时(例如Http://Google.com,它与它不匹配)我遇到了问题.我试过了：但什么都没发生.解决方法您可以使用正则表达式中的i内联标志关闭区分大小写,有关可用正则表达式功能的详细信息,请参阅FoundationFrameworkReference.(?ismwx-ismwx)Flagsetti
在Xcode4中,你可以更改用于显示隐形字符的字符吗？

我更喜欢VisualStudio显示隐形的方式……
ios – NSURLErrorDomain代码-1002下载pdf

我正在尝试缓存一个网页,然后我可以使用UIWebView显示该网页.我在另一个NSURLSessionDataTask的完成块内的for循环(尝试缓存6个网页)中有相关的NSURLSessionDataTask.当我跑步时,我不断收到此错误：Ayy下载错误,数据：响应：(空)错误：错误域=NSURLErrorDomain代码=-1002“操作无法完成.(NSURLErrorDomain错误-1
ios – 应用程序商店描述特殊字符

是不是可以在AppStore描述中使用像星星这样的特殊字符了？我得到这个错误：描述不得包含标记语言.说明不得包含以下字符：★提前致谢：)解决方法仍然允许一些unicode字符.以下字符已经过测试并仍然有效：◆√至于现在他们工作正常,但苹果可以随时再次改变条件.
ios – 将数组中的字符转换为整数

即使我搜索了文档,我似乎无法弄清楚如何做到这一点.我试图弄清楚如何将数组中索引处的字符转换为整数.例如,假设我有一个名为“容器”的字符数组,我无法弄清楚该怎么做：谢谢您的帮助！解决方法Swift并不容易在原始和类型表示之间进行转换.这是一个在此期间应该有所帮助的扩展：这使您可以非常接近您想要的：对于遇到此问题的任何工程师,请参阅rdar：//17494834
ios – 如何在Swift 3中使用正则表达式？

解决方法我相信.当没有其他选项适用时,将使用.allZeros.因此,使用Swift3,您可以传递一个空的选项列表或省略options参数,因为它默认为无选项：要么请注意,在Swift3中,您不再使用error参数.它现在抛出.
ios – lldb断点在类目标c中的所有方法

如何使用lldb在ObjectiveC类中的所有方法上自动设置断点？
ios – 创建一个包含n个空格或其他重复字符的字符串

我想使用Swift使用n个空格进行字符串,但不使用for循环或手动如下所示：解决方法String已经有一个repeating:count:initializer就像Array(和其他采用RangeReplaceableIndexable协议的集合)：所以你可以打电话：请注意,重复的参数是一个字符串,而不仅仅是一个字符,因此您可以重复整个序列：编辑：更改为Swift3语法,并删除了关于Swift1类

随机推荐

法国电话号码的正则表达式

我正在尝试实施一个正则表达式,允许我检查一个号码是否是一个有效的法国电话号码.一定是这样的：要么：这是我实施的但是错了……
正则表达式 – perl分裂奇怪的行为

PSperl是5.18.0问题是量词*允许零空间,你必须使用,这意味着1或更多.请注意,F和O之间的空间正好为零.
正则表达式 – 正则表达式大于和小于

我想匹配以下任何一个字符：或=或=.这个似乎不起作用：[/]试试这个：它匹配可选地后跟=,或者只是=自身.
如何使用正则表达式用空格替换字符之间的短划线

我想用正则表达式替换出现在带空格的字母之间的短划线.例如,用abcd替换ab-cd以下匹配字符–字符序列,但也替换字符[即ab-cd导致d,而不是abcd,因为我希望]我如何适应以上只能取代–部分？
正则表达式 – /bb | [^ b] {2} /它是如何工作的？

有人可以解释一下吗？我在t-shirt上看到了这个：它似乎在说：“成为或不成为”怎么样？我好像没找到’e’？
正则表达式 – 在Scala中验证电子邮件一行

在我的代码中添加简单的电子邮件验证,我创建了以下函数：这将传递像bob@testmymail.com这样的电子邮件和bobtestmymail.com之类的失败邮件,但是带有空格字符的邮件会漏掉,就像bob@testmymail也会返回true.我可能在这里很傻……当我测试你的正则表达式并且它正在捕捉简单的电子邮件时,我检查了你的代码并看到你正在使用findFirstIn.我相信这是你的问题.findFirstIn将跳转所有空格,直到它匹配字符串中任何位置的某个序列.我相信在你的情况下,最好使用unapp
正则表达式对小字符串的暴力

在测试小字符串时,使用正则表达式会带来性能上的好处,还是会强制它们更快？不会通过检查给定字符串的字符是否在指定范围内比使用正则表达式更快来强制它们吗？
正则表达式 – 为什么`stoutest`不是有效的正则表达式？

isthedelimiter,thenthematch-only-onceruleof?PATTERN?
正则表达式 – 替换..与.在R

我怎样才能替换..我尝试过类似的东西：但它并不像我希望的那样有效.尝试添加fixed=T.
正则表达式 – 如何在字符串中的特定位置添加字符？

我正在使用记事本,并希望使用正则表达式替换在字符串中的特定位置插入一个字符.例如,在每行的第6位插入一个逗号是什么意思？如果要在第六个字符后添加字符,请使用搜索和更换从技术上讲,这将用MatchGroup1替换每行的前6个字符,后跟逗号.