正则表达式基础学习篇

2020-06-16 原文

基本正则表达式

基本正则表达是的元字符有：

.：匹配任意单个字符

[]：匹配中括号范围以内的字符

[^]：只匹配中括号范围以外的字符

^：匹配以其后面字符为开头的行

$：匹配以其前面字符为结尾的行

^$：匹配空白行

\b*\b：匹配某个确定单词，也可以表示匹配以*开头或结尾的单词(此时*表示任意字符)

*：匹配前面字符任意次

\{m,n\}：匹配起前面字符最少m次，最多n次

+：重复前面字符至少一次，多则不限

：匹配小括号内的内容，且支持后向引用（引用时如果只有一个分组，则只用在后边添写\n即可，如果有多个分组，则需要表明)

\：逃字符，显示元字符本身的意思；

\.：此时只表示字符“.”而不是任意单个字符

正则表达式查找文件时的命令格式：

grep[#]PATTERNfilename命令+参数+模式+文件

exp：#grep“r..t”/etc/passwd

表示匹配文件passwd中以r开头中间是两个任意字符，以t结尾的字符串

#grep“[0-9]”/etc/passwd。。。。。。。。。。。。中括号和范围之间可有空格，也可没有

匹配文件passwd中0-9中的任意字符

#grep“[^0-9]”/etc/passwd。。。。。。。。。。。。此时中括号和^及范围之间没有空格

匹配文件passwd中除了0-9以外的任意字符

#grep“^root”/etc/passwd

匹配文件中以字符root开头的行（此时显示时只突出显示匹配行中开头的字符）

#grep“bash$”/etc/passwd

匹配文件中以字符bash结尾的行（显示时只突出显示匹配行中结尾的字符）

#grep“^$”/etc/inittab

匹配文件inittab中的空白行

#grep“\buser1\b”/etc/passwd

只匹配文件passwd中的单词user1（显示时只突出显示匹配到的行中匹配单词）

#grep“b.*h”/etc/passwd

匹配文件passwd中以b开头后边跟任意个字符，并且以h结尾的字符串

#grep“ro\{1,2\}t”/etc/passwd

匹配文件passwd中任何以r开头，中间有一个或者两个o，以t结尾的字符

（此时\前面的字符为o，而大括号内的数字为1，2，所以只重复前面字符o 至少一次，最多两次。次数匹配还可以写为\{1,\}，重复前面字符最少一次，多则不限；\{0,9\}重复前面字符至少零次，最多九次，此时前面必须写零）

#grep“ro\+\t”/etc/passwd

匹配文件中以含有r和t，中间至少一个o的字符串

#grep“$user$.*\1”/etc/passwd

匹配文件passwd文件中含有user后面跟任意字符并且以user结尾的行

\n表示引用前面分组字符n次

#grep“\/bin\/bash”/etc/passwd

匹配文件passwd中含有/bin/bash的行，此时/只表示路径

[:space:]空白字符的集合

[:digit:]所有数字的集合

[:lower:]所有小写字母的集合

[:upper:]所有大写字母的集合

[:alpha:]所有大小写字母的集合

[:alnum:]所有数字的集合

[:punct:]所有标点符号的集合

exp：#gerp“[[:space:]]*[[:lower:]]*[[:digit:]]”/etc/inittab

匹配文件inittab中所有含有任意个空白字符，之后跟任意个小写字母，在跟数字的字符串

grep命令可附加的部分参数：

-i不区分大小写查找字符

-v显示不包括匹配模式的所有内容

-o只显示搜索到的内容

--color将搜索到的内容以高亮颜色显示(默认为红色)

-n显示搜索到的内容时显示行号

exp：

#grep-iv“bash”/etc/passwd

查找文件passwd中含有bash字符串的行，不管大小写，并且只显示没有匹配到的行

#grep-io“bash”/etc/passwd

查找文件passwd中含有bash的行，不管大小写，并且只将匹配到的行显示出来

#grep--color“^root”/etc/passwd

查找文件passwd中所有以root开头的行，并将匹配到的字符串以高亮颜色显示

#grep--color-ion“user”/etc/paswd

查找文件passwd中所有含有user的行，不管大小写，只以高亮颜色显示匹配到的字符串，并且显示这些字符串所在的行的行号

#grep-iA3“^root”/etc/passwd

查找文件passwd中所有以root开头的行，不管大小写，并将这一行以下三行显示出来

#grep-iB3“bash$”/etc/passwd

查找文件passwd中所有以bash结尾的行，不管大小写，并将这些行的上边三行显示出来，每一个被匹配到的行显示一段，中间以“--”隔开

#grep-ic2“halt$”/etc/passwd

查找文件passwd中以halt结尾的行，并将这一行上边两行和下边两行都显示出来

扩展正则表达式

1、字符匹配：

.：任意单个字符

[]：范围内

[^]：范围外

*：其前面字符任意次

？：其前面字符的0次或者一次

+：匹配此前面的字符至少一次 '[[:space:]]+' 至少一个空字符

{m,n}:匹配m到n次，不需要再用\

^：锚定行首，此字符后面的任意内容必须出现在行首 grep '^ro' /file

$：锚定行尾，此字符前面的任意内容必须出现在行尾 grep 'ro$' /file

^$：空白行

\<：其后面的任意字符必须作为单词首部出现

\>：其前面的任意字符必须作为单词的尾部出现

\<或\b：锚定词首，其后面的任意字符必须作为单词首部出现

\>或\b：锚定词尾，其前面的任意字符必须作为单词的尾部出现

?匹配其前面字符一次或者零次，表示前面字符可有可无

|匹配字符串一或者字符串二

()将括号内的内容视为一个整体

#egrep“ro?t”/etc/passwd

匹配文件passwd中含有字符串root或者rot的行

#egrep“root|bin”/etc/passwd

匹配文件passwd中含有字符串root或者bin的行

维基百科搜索到的正则表达式字符匹配行为列表

[编辑]

字符	描述
\	将下一个字符标记为一个特殊字符、或一个原义字符、或一个向后引用、或一个八进制转义符。例如，“`n`”匹配字符“`n`”。“`\n`”匹配一个换行符。串行“`\\`”匹配“`\`”而“`\(`”则匹配“`(`”。
^	匹配输入字符串的开始位置。如果设置了RegExp对象的Multiline属性，^也匹配“`\n`”或“`\r`”之后的位置。
$	匹配输入字符串的结束位置。如果设置了RegExp对象的Multiline属性，$也匹配“`\r`”之前的位置。
*	匹配前面的子表达式零次或多次。例如，zo能匹配“`z`”以及“`zoo`”。等价于{0,}。
+	匹配前面的子表达式一次或多次。例如，“`zo+`”能匹配“`zo`”以及“`zoo`”，但不能匹配“`z`”。+等价于{1,242); text-align: center;">?	匹配前面的子表达式零次或一次。例如，“`do(es)?`”可以匹配“`do`”或“`does`”中的“`do`”。?等价于{0,1}。
{n}	n是一个非负整数。匹配确定的n次。例如，“`o{2}`”不能匹配“`Bob`”中的“`o`”，但是能匹配“`food`”中的两个o。
{n,}	n是一个非负整数。至少匹配n次。例如，“`o{2,}`”不能匹配“`o`”，但能匹配“`foooood`”中的所有o。“`o{1,}`”等价于“`o+`”。“`o{0,}`”则等价于“`o*`”。
m}	m和n均为非负整数，其中n<=m。最少匹配n次且最多匹配m次。例如，“`fooooood`”中的前三个o。“`o?`”。请注意在逗号和两个数之间不能有空格。
当该字符紧跟在任何一个其他限制符（*,+,?，{n}，{n,}，{n,m}）后面时，匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串，而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如，对于字符串“`oooo`”，“`o+?`”将匹配单个“`o`”，而“`o+`”将匹配所有“`o`”。
.	匹配除“`\n`”之外的任何单个字符。要匹配包括“`n`”在内的任何字符，请使用像“`(.\|\n)`”的模式。
(pattern)	匹配pattern并获取这一匹配。所获取的匹配可以从产生的Matches集合得到，在VBScript中使用SubMatches集合，在JScript中则使用$0…$9属性。要匹配圆括号字符，请使用“`$`”或“`$`”。
(?:pattern)	匹配pattern但不获取匹配结果，也就是说这是一个非获取匹配，不进行存储供以后使用。这在使用或字符“`(\|)`”来组合一个模式的各个部分是很有用。例如“`industr(?:y\|ies)`”就是一个比“`industry\|industries`”更简略的表达式。
(?=pattern)	正向肯定预查，在任何匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配，也就是说，该匹配不需要获取供以后使用。例如，“`Windows(?=95\|98\|NT\|2000)`”能匹配“`Windows2000`”中的“`Windows`”，但不能匹配“`Windows3.1`”中的“`Windows`”。预查不消耗字符，也就是说，在一个匹配发生后，在最后一次匹配之后立即开始下一次匹配的搜索，而不是从包含预查的字符之后开始。
(?!pattern)	正向否定预查，在任何不匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配，也就是说，该匹配不需要获取供以后使用。例如“`Windows(?!95\|98\|NT\|2000)`”能匹配“`Windows`”。预查不消耗字符，也就是说，在一个匹配发生后，在最后一次匹配之后立即开始下一次匹配的搜索，而不是从包含预查的字符之后开始
(?<=pattern)	反向肯定预查，与正向肯定预查类似，只是方向相反。例如，“`(?<=95\|98\|NT\|2000)Windows`”能匹配“`2000Windows`”中的“`3.1Windows`”中的“`Windows`”。
(?<!pattern)	反向否定预查，与正向否定预查类似，只是方向相反。例如“`(?<!95\|98\|NT\|2000)Windows`”能匹配“`x\|y`	匹配x或y。例如，“`z\|food`”能匹配“`z`”或“`food`”。“`(z\|f)ood`”则匹配“`zood`”或“`food`”。
[xyz]	字符集合。匹配所包含的任意一个字符。例如，“`[abc]`”可以匹配“`plain`”中的“`a`”。
[^xyz]	负值字符集合。匹配未包含的任意字符。例如，“`[^abc]`”可以匹配“`plin`”。
[a-z]	字符范围。匹配指定范围内的任意字符。例如，“`[a-z]`”可以匹配“`a`”到“`z`”范围内的任意小写字母字符。
[^a-z]	负值字符范围。匹配任何不在指定范围内的任意字符。例如，“`[^a-z]`”可以匹配任何不在“`z`”范围内的任意字符。
\b	匹配一个单词边界，也就是指单词和空格间的位置。例如，“`er\b`”可以匹配“`never`”中的“`er`”，但不能匹配“`verb`”中的“`er`”。
\B	匹配非单词边界。“`er\B`”能匹配“`\cx`	匹配由x指明的控制字符。例如，\cM匹配一个Control-M或回车符。x的值必须为A-Z或a-z之一。否则，将c视为一个原义的“`c`”字符。
\d	匹配一个数字字符。等价于[0-9]。
\D	匹配一个非数字字符。等价于[^0-9]。
\f	匹配一个换页符。等价于\x0c和\cL。
\n	匹配一个换行符。等价于\x0a和\cJ。
\r	匹配一个回车符。等价于\x0d和\cM。
\s	匹配任何空白字符，包括空格、制表符、换页符等等。等价于[ \f\n\r\t\v]。
\S	匹配任何非空白字符。等价于[^ \f\n\r\t\v]。
\t	匹配一个制表符。等价于\x09和\cI。
\v	匹配一个垂直制表符。等价于\x0b和\cK。
\w	匹配包括下划线的任何单词字符。等价于“`[A-Za-z0-9_]`”。
\W	匹配任何非单词字符。等价于“`[^A-Za-z0-9_]`”。
\xn	匹配n，其中n为十六进制转义值。十六进制转义值必须为确定的两个数字长。例如，“`\x41`”匹配“`A`”。“`\x041`”则等价于“`\x04&1`”。正则表达式中可以使用ASCII编码。.
\num	匹配num，其中num是一个正整数。对所获取的匹配的引用。例如，“`(.)\1`”匹配两个连续的相同字符。
\n	标识一个八进制转义值或一个向后引用。如果\n之前至少n个获取的子表达式，则n为向后引用。否则，如果n为八进制数字（0-7），则n为一个八进制转义值。
\nm	标识一个八进制转义值或一个向后引用。如果\nm之前至少有nm个获得子表达式，则nm为向后引用。如果\nm之前至少有n个获取，则n为一个后跟文字m的向后引用。如果前面的条件都不满足，若n和m均为八进制数字（0-7），则\nm将匹配八进制转义值nm。
\nml	如果n为八进制数字（0-3），且m和l均为八进制数字（0-7），则匹配八进制转义值nml。
\un	匹配n，其中n是一个用四个十六进制数字表示的Unicode字符。例如，\u00A9匹配版权符号（©）。

[编辑]