【读书】正则指引-2-量词

2020-06-24 原文

多字符匹配的一般形式

为什么需要量词？因为使用量词可以方便的匹配多个字符。
以匹配邮政编码为例，其是由6位数字构成的字符串，比如201203。根据之前学习的知识，匹配这样的字符串需要使用正则表达式\d\d\d\d\d\d。而使用量词进行匹配则只需要写成\d{6}。
量词可以表达不确定的长度，其通用形式是{m,n}，其中m和n是两个数字，m是下限，n是上限（均是闭区间），m和n共同限定了之前的元素能够出现的次数。
\d{m,n}表示所匹配的数字字符串长度，最短是m个字符，最长是n个字符。
如果不确定长度的上限，可以省略n值，只给出m值，例如\d{m,}，表示数字字符串的长度必须在m个字符之上。
量词限定的出现次数一般都有明确的下限，如果没有，则默认为0。
注：量词中的逗号之后绝不能有空格。

量词	说明
{n}	之前的元素必须出现n次
{m,n}	之前的元素最少出现m次，最多出现n次
{m,}	之前的元素最少出现m次，出现次数无上限
{0,n}	之前的元素可以不出现，也可以出现，最多出现n次（在某些语言中可以写为{,n}）

常用量词

{m,n}是量词表达的通用形式，在正则表达式中还存在三个作为“量词简记法”的常用量词，如下表：

常用量词	{m,n}等价形式	说明
*	{0,}	可能出现，也可能不出现，出现次数没有上限
+	{1,}	至少出现1次，出现次数没有上限
?	{0,1}	至多出现1次，也可能不出现

一些使用常用量词的例子：

针对美式英语和英式英语单词拼写的使用，如travell?er。
针对http和https两种协议的匹配，如https?。
匹配HTML中的所有tag，如<[^>]+>（该正则表达有一点缺陷，以前一篇文章和本文中的知识无法解决）。

针对各类tag的匹配：

匹配所有tag的表达式	tag分类	匹配分类tag的表达式
<[^>]+>	Open tag	<[^/>][^>]*>
	Close tag	</[^>]+>
	Self-closing tag	<[^>/]+/>

匹配双引号字符串，如”[^”]*”。

正则表达式使用原则：使用合适的结构（包括字符组和量词），精确表达自己的意图，界定能匹配的文本。
上面给出用于匹配open tag的正则表达式，也能够匹配self-closing tag。以目前已学知识无法解决。

特殊元字符：点号

一般文档都说，点号可以匹配“任意字符”，但事实是，点号可以匹配除换行符\n之外的任意字符。如果非要匹配“任意字符”，有两种办法：在正则匹配时指定使用单行模式（目前不解释细节），在这种模式下，点号可以匹配换行符；或者使用之前说过的通配字符组[\s\S]（也可以是[\d\D]或[\w\W]）。
点号的使用容易出现滥用，比如随意使用.*或.+。
例如，之前我们使用”[^”]*”匹配双引号字符串，而“图省事”的做法是”.*”。这种用法会出现意外，因为用”.*”匹配双引号字符串，不但可以匹配正常的双引号字符串”quoted string”，还可以匹配格式错误的字符串”quoted string” and another”。另外”.*”无法匹配有换行符的情况。
这个问题简答的讲，是因为所使用量词的类型导致。之前介绍过的量词都属于匹配优先量词（greedy quantifier，也称作贪婪量词）。这类量词的特点是，在拿不准是否要匹配的时候，优先尝试匹配，并记下这个状态，以备将来进行回溯（backtracking）。例如下图所示过程

匹配优先量词使用的常见场景：

文件名解析（例如使用^.*/对/usr/local/bin/python进行路径匹配；用[^/]*$对文件名匹配）

与匹配优先量词对应的，正则表达式中还提供了忽略优先量词（lazy quantifier或reluctant quantifier，也称作懒惰量词）。这类量词的特点是，如果不确定是否要匹配，忽略优先量词会选择“不匹配”的状态，再尝试匹配表达式之后的元素，如果尝试失败，再回溯，重新使用忽略优先量词进行“匹配”。
忽略优先量词使用的常见场景：

匹配多段javascript代码（<script type=”text/javasript”>...</script>）；
匹配类似C语言那样的多行注释（行尾注释//...，和多行注释/*...*/）；
提取HTML代码中的超链接（<a href=”http://somehost/somepath”>text</a>）；

总之，忽略优先量词一般用于多行匹配中，且被匹配的行中可能重复出现某种模式。此时，忽略优先量词保证了只匹配到最先遇到的模式。
目前已知的匹配优先量词和其对应的忽略优先量词如下表所示

匹配优先量词	忽略优先量词	限定次数
*	*?	可能不出现，也可能出现，出现次数没有上限
+	+?	至少出现1次，出现次数没有上限
?	??	至多出现1次，也可能不出现
{m,n}	{m,n}?	出现次数最少为m次，最多为n次
{m,}	{m,}?	出现次数最少为m次，没有上限
{,n}	{,n}?	可能不出现，也可能出现，最多出现n次

匹配优先量词和忽略优先量词逐一对应，只是在对应的匹配优先量词之后添加?，两者限定的元素能出现的次数也一样，遇到不能匹配的情况同样需要回溯；唯一的区别在于，忽略优先量词会优先选择“忽略”，而匹配优先量词会优先选择“匹配”。另外，匹配优先量词只需要考虑自己限定的元素能够匹配即可，而忽略优先量词必须兼顾它所限定的元素和之后的元素，效率自然大大降低，当处理字符串很长时，尤为明显。
问题：C语言的两种注释方式，一种是在行末，以//开头；另一种可以跨多行，以/*开头，以*/结束。要匹配这两种注释，如何写正则表达式？
忽略优先量词在HTML页面解析中的应用：

类型	正则表达式
匹配table	<table[\s>][\s\S]+?</table>
匹配tr	<tr[\s>][\s\S]+?</tr>
匹配td	<td[\s>][\s\S]+?</td>

注：因为tag是不区分大小写的，所以如果还希望匹配大小写的情况，则必须使用字符组，table写成[tT][aA][bB][lL][eE]。
在实际的HTML代码中，table、tr、td这三个元素经常是嵌套的，它们之间存在着包含关系。但是仅仅使用正则表达式匹配，并不能得到这种包含关系信息。换句话说，正则表达式只能进行纯粹的文本处理，单纯依靠它不能整理出层次结构；如果希望解析文本的同时构建层次结构信息，则必须将正则表达式配合程序代码一起使用。

转义

之前介绍过元字符的转义，这里要介绍的是量词的转义。
对于常用量词所使用的字符+、*、?来说，如果希望表示这三个字符本身，直接添加反斜线，变为\+、\*、\?即可。但是在一般形式的量词{m,n}中，虽然具有特殊含义的字符不止一个，转义时却只需要给第一个{添加反斜线即可，也就是说，如果希望匹配字符串{m,n}，则正则表达式必须写成\{m,n}。
需要注意的是针对忽略优先量词的转义，因为其需要对两个量词全部转义。例如，如果要匹配字符串*?，正则表达式必须写作\*\?，而不是\*?。
下表为各种量词的转义

量词	转义形式
{n}	\{n}
{m,n}	\{m,n}
{m,}	\{m,}
{,n}	\{,n}
*	\*
+	\+
?	\?
*?	\*\?
+?	\+\?
??	\?\?

注：未转义的点号可以匹配除换行符之外的任何字符，其中也包含点号本身，所以经常有人会忽略对点号的转义。例如对3.14进行正则匹配需要^\d+\.\d+$。

总结

本篇将《正则指引》的第二章内容进行了概括总结，下次讲解正则表达式中的括号。

参考资料

《正则指引》：余晟。

【读书】正则指引-2-量词的更多相关文章

Html5 canvas实现粒子时钟的示例代码

这篇文章主要介绍了Html5 canvas实现粒子时钟的示例代码,小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
HTML5数字输入仅接受整数的实现代码

这篇文章主要介绍了HTML5数字输入仅接受整数的实现代码,本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
ios – 使用大写符号在字符串swift中获取URL的正则表达式

我尝试在文本中获取URL.所以,在此之前,我使用了这样一个表达式：但是当用户输入带有大写符号的URL时(例如Http://Google.com,它与它不匹配)我遇到了问题.我试过了：但什么都没发生.解决方法您可以使用正则表达式中的i内联标志关闭区分大小写,有关可用正则表达式功能的详细信息,请参阅FoundationFrameworkReference.(?ismwx-ismwx)Flagsetti
在Xcode4中,你可以更改用于显示隐形字符的字符吗？

我更喜欢VisualStudio显示隐形的方式……
ios – NSURLErrorDomain代码-1002下载pdf

我正在尝试缓存一个网页,然后我可以使用UIWebView显示该网页.我在另一个NSURLSessionDataTask的完成块内的for循环(尝试缓存6个网页)中有相关的NSURLSessionDataTask.当我跑步时,我不断收到此错误：Ayy下载错误,数据：响应：(空)错误：错误域=NSURLErrorDomain代码=-1002“操作无法完成.(NSURLErrorDomain错误-1
ios – 应用程序商店描述特殊字符

是不是可以在AppStore描述中使用像星星这样的特殊字符了？我得到这个错误：描述不得包含标记语言.说明不得包含以下字符：★提前致谢：)解决方法仍然允许一些unicode字符.以下字符已经过测试并仍然有效：◆√至于现在他们工作正常,但苹果可以随时再次改变条件.
ios – 将数组中的字符转换为整数

即使我搜索了文档,我似乎无法弄清楚如何做到这一点.我试图弄清楚如何将数组中索引处的字符转换为整数.例如,假设我有一个名为“容器”的字符数组,我无法弄清楚该怎么做：谢谢您的帮助！解决方法Swift并不容易在原始和类型表示之间进行转换.这是一个在此期间应该有所帮助的扩展：这使您可以非常接近您想要的：对于遇到此问题的任何工程师,请参阅rdar：//17494834
ios – 如何在Swift 3中使用正则表达式？

解决方法我相信.当没有其他选项适用时,将使用.allZeros.因此,使用Swift3,您可以传递一个空的选项列表或省略options参数,因为它默认为无选项：要么请注意,在Swift3中,您不再使用error参数.它现在抛出.
ios – lldb断点在类目标c中的所有方法

如何使用lldb在ObjectiveC类中的所有方法上自动设置断点？
ios – 创建一个包含n个空格或其他重复字符的字符串

我想使用Swift使用n个空格进行字符串,但不使用for循环或手动如下所示：解决方法String已经有一个repeating:count:initializer就像Array(和其他采用RangeReplaceableIndexable协议的集合)：所以你可以打电话：请注意,重复的参数是一个字符串,而不仅仅是一个字符,因此您可以重复整个序列：编辑：更改为Swift3语法,并删除了关于Swift1类

随机推荐

法国电话号码的正则表达式

我正在尝试实施一个正则表达式,允许我检查一个号码是否是一个有效的法国电话号码.一定是这样的：要么：这是我实施的但是错了……
正则表达式 – perl分裂奇怪的行为

PSperl是5.18.0问题是量词*允许零空间,你必须使用,这意味着1或更多.请注意,F和O之间的空间正好为零.
正则表达式 – 正则表达式大于和小于

我想匹配以下任何一个字符：或=或=.这个似乎不起作用：[/]试试这个：它匹配可选地后跟=,或者只是=自身.
如何使用正则表达式用空格替换字符之间的短划线

我想用正则表达式替换出现在带空格的字母之间的短划线.例如,用abcd替换ab-cd以下匹配字符–字符序列,但也替换字符[即ab-cd导致d,而不是abcd,因为我希望]我如何适应以上只能取代–部分？
正则表达式 – /bb | [^ b] {2} /它是如何工作的？

有人可以解释一下吗？我在t-shirt上看到了这个：它似乎在说：“成为或不成为”怎么样？我好像没找到’e’？
正则表达式 – 在Scala中验证电子邮件一行

在我的代码中添加简单的电子邮件验证,我创建了以下函数：这将传递像bob@testmymail.com这样的电子邮件和bobtestmymail.com之类的失败邮件,但是带有空格字符的邮件会漏掉,就像bob@testmymail也会返回true.我可能在这里很傻……当我测试你的正则表达式并且它正在捕捉简单的电子邮件时,我检查了你的代码并看到你正在使用findFirstIn.我相信这是你的问题.findFirstIn将跳转所有空格,直到它匹配字符串中任何位置的某个序列.我相信在你的情况下,最好使用unapp
正则表达式对小字符串的暴力

在测试小字符串时,使用正则表达式会带来性能上的好处,还是会强制它们更快？不会通过检查给定字符串的字符是否在指定范围内比使用正则表达式更快来强制它们吗？
正则表达式 – 为什么`stoutest`不是有效的正则表达式？

isthedelimiter,thenthematch-only-onceruleof?PATTERN?
正则表达式 – 替换..与.在R

我怎样才能替换..我尝试过类似的东西：但它并不像我希望的那样有效.尝试添加fixed=T.
正则表达式 – 如何在字符串中的特定位置添加字符？

我正在使用记事本,并希望使用正则表达式替换在字符串中的特定位置插入一个字符.例如,在每行的第6位插入一个逗号是什么意思？如果要在第六个字符后添加字符,请使用搜索和更换从技术上讲,这将用MatchGroup1替换每行的前6个字符,后跟逗号.