正则表达式

一正则表达式的概念

正则表达式(或称Regular Expression,简称RE)就是由普通字符(例如字符 a 到 z)以及特殊字符(称为元字符)组成的文字模式;该模式描述在查找文字主体时待匹配的一个或多个字符串

正则表达式作为一个模板,将某个字符模式与所搜索的字符串进行匹配。简单的说,正则表示式就是处理字符串的方法,它是以行为单位来进行字符串的处理行为,正则表示式通过一些特殊符号的辅助,可以让使用者轻易的达到搜寻/删除/取代某特定字符串的处理程序。vim、grep、find、awk、sed等命令都支持正则表达式

二常用正则表达式

・表达式

1、.代表任意单个字符,如:/l..e/与包含一个l,后跟两个字符,然后跟一个e的行相匹配

2、^代表行的开始。 ^love 如:与所有love开头的行匹配

3、$代表行的结束。love$ 如:与所有love结尾的行匹配

4、^$表示空行

5、[…]匹配括号中的字符之一

[abc]匹配单个字符a或b或c

[123]匹配单个字符1或2或3

[a-z]匹配小写字母a-z之一

[a-zA-Z]匹配任意英文字母之一

[0-9a-zA-Z]匹配任意英文字母或数字之一

注意:上面标红色的单个和之一,不管[]里面多复杂,它的结果都是一个字符!

6、[^…] 表示除[]内的字符之外的字符;比如 搜索oo前没有g的字符串的行. 应用 '[^g]oo' 作搜索字符串,^符号如果出现在[]的起始位置表示否定,但是在[]的其他位置是普通字符。[^ab^c] 匹配b或^或c或不是a的任意单个字符

7、* 用于修饰前导字符,表示前导字符出现0次或任意多次

如:'a*grep'匹配所有0个或多个a后紧跟grep的行。".*"表示任意字符串

8、\? 用于修饰前导字符,表示前导字符出现0或1次

a\? 匹配0或1个a

9、\+ 用于修饰前导字符,表示前导字符出现1或多次

a\+ 匹配1或多个a

10、\{n,m\} 用于修饰前导字符,表示前导字符出现n至m次 (n和m都是整数,且n<m)

a\{3,5\} 匹配3至5个连续的a;;\{n\} 连续的n个前导字符;\{n,\} 连续的至少n个前导字符

11、\ 用于转义紧跟其后的单个特殊字符,使该特殊字符成为普通字符

如:^\.[0-9][0-9] 对以一个句点和两个数字开始

12、表示或 如: a|b|c 匹配a或b或c。如:grep|sed匹配grep或sed

13、(),将部分内容合成一个单位组,比如 要搜索 glad 或 good 可以如下 'g(la|oo)d'

・应用举例

例1:一篇文本包含以下内容

1 Christian Scott lives here and will put on a Christmas party.

2 There are around 30 to 35 people invited.

3 They are:

4 Tom

5 Dan

6 Rhonda Savage

7 Nicky and Kimerly.

8 Steve,Suzanne,Ginger and Larry.

^[A-Z]..$

搜索行以A至Z的一个字母开头,然后跟两个任意字母,然后跟一个换行符的行。将找到第5行。

^[A-Z][a-z]*3[0-5]

搜索以一个大写字母开头,后跟0个或多个小写字母,再跟数字3,再跟05之间的一个数字。无法找到匹配行(改成^[A-Z][a-z]*.*3[0-5]可找到第2行)

^ *[A-Z][a-z][a-z]$

搜索以0个或多个空格开头,跟一个大写字母,两个小写字母和一个换车符。将找到第4行的TOM(整行匹配)和第5行。注意,*前面有一个空格

^[A-Za-z]*[^,][A-Za-z]*$

将查找以0个或多个大写或小写字母开头,不跟逗号,然后跟0个或多个大写或小写字母,然后跟一个换车符。将找到第4和5行。

例2:

# ls -l /bin | grep '^...s'

上面的命令是用来查找suid文件的;

# ls -lR /usr | grep '^...s..s'

上面的命令是用来查找suid和guid的

三 grep命令的用法

・介绍

grep (global search regular expression_r(RE) and print out the line,全面搜索正则表达式并把行打印出来)是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹配的行打印出来

・参数

1 -A NUM--after-context=NUM 除了列出符合行之外,并且列出后NUM行。

: $ grep –A 1 panda file (file中搜寻有panda样式的行,并显示该行的后1)

2.-B NUM--before-context=NUM -A NUM 相对,但这此参数是显示除符合行之外

显示在它之前的NUM行。如: (file中搜寻有panda样式的行,并显示该行的前1)

$ grep -B 1 panda file

3-C [NUM],-NUM,--context[=NUM] 列出符合行并列出上下各NUM行,默认值是2

: (列出file中除包含panda样式的行外并列出其上下2)(若要改变默认值,直接改变NUM即可)$ grep -C[NUM] panda file

4 -c, --count 不显示符合样式行,只显示符合的总行数。若再加上-v,--invert-match,参数显示不符合的总行数

5-i,--ignore-case 忽略大小写差别

6、-n,--line-number 在匹配的行前面打印行号

7、-v,--revert-match 反检索,只显示不匹配的行

8、精确匹配:

例如在抽取字符串" 48",返回结果包含诸如484和483等包含"48"的其他字符串,实际上应精确抽取只包含48的各行。

使用grep抽取精确匹配的一种有效方式是在抽取字符串后加\>。假定现在精确抽取48,

方法如下:

#grep '48\>' filename

9、-s 不显示不存在或无匹配文本的错误信息

如:执行命令grep "root" /etc/password,因为password文件不存在,所以在屏幕上输出错误信息,若使用grep命令-s开关,可屏蔽错误信息

・应用举例

$ ls -l | grep '^d'

通过管道过滤ls -l输出的内容,只显示以d开头的行。

$ grep 'test' d*

显示所有以d开头的文件中包含test的行。

$ grep 'test' aa bb cc

显示在aa,bb,cc文件中匹配test的行。

$ grep '[a-z]\{5,\}' aa

显示所有包含每个字符串至少有5个连续小写字符的字符串的行。

$grep 't[a|e]st' filename

显示包含test或tast的所有行。

$grep '\.$' filename

显示以.为结尾的所有行

三 sed命令的用法

・介绍

sed是一种在线编辑器,它一次处理一行内容。处理时,把当前处理的行存储在临时缓冲区中,称为"模式空间"(pattern space),接着用sed命令处理缓冲区中的内容,处理完成后,把缓冲区的内容送往屏幕。接着处理下一行,这样不断重复,直到文件末尾。文件内容并没有改变,除非你使用重定向存储输出

・应用用举例

1.替换: s命令
1.1 基本用法

如: sed 's/day/night/' <old >new
该例子将文件 old 中的每一行第一次出现的 day 替换成 night,将结果输出到文件 new

s " 替换 " 命令
/../../分割符 (Delimiter)
day搜索字符串
night替换字符串
其实,分割符 "/" 可以用别的符号代替,比如 ",","|" .
如:sed 's/\/usr\/local\/bin/\/common\/bin/'<old >new
等价于 sed 's_/usr/local/bin_/common/bin_' <old >new
显然,此时用 "_" 作分割符比 "/" 好得多

1.2 用 & 表示匹配的字符串

有时可能会想在匹配到的字符串周围或附近加上一些字符 .
如: sed 's/abc/(abc)/' <old >new

该例子在找到的 abc 前后加上括号 .
该例子还可以写成 sed 's/abc/(&)/' <old >new

下面是更复杂的例子 :
sed 's/[a-z]*/(&)/' <old >new

sed 默认只替换搜索字符串的第一次出现,利用 /g 可以替换搜索字符串所有

$ sed 's/test/mytest/g' example-----在整行范围内把test替换为mytest。如果没有g标记,则只有每行第一个匹配的test被替换成mytest。

$ sed 's/^192.168.0.1/&localhost/' example-----&符号表示替换字符串中被找到的部份。所有以192.168.0.1开头的行都会被替换成它自已加 localhost,变成192.168.0.1localhost。

$ sed 's#10#100#g' example-----不论什么字符,紧跟着s命令的都被认为是新的分隔符,所以,"#"在这里是分隔符,代替了默认的"/"分隔符。表示把所有10替换成100。

如果需要对同一文件或行作多次修改,可以使用 "-e" 选项

aimg.cn/middle/c1444d1dzx6D3VJilW3c3&amp;690" title="10.1正则表达式" src="http://s4.sinaimg.cn/middle/c1444d1dzx6D3VJilW3c3&amp;690">

取得eth0网卡IP地址:

aimg.cn/middle/c1444d1dzx6D3VJqSFH11&amp;690" title="10.1正则表达式" src="http://s2.sinaimg.cn/middle/c1444d1dzx6D3VJqSFH11&amp;690">

2.删除行:d命令

从某文件中删除包含 "how" 的所有行

aimg.cn/middle/c1444d1dzx6D3VJtF3U9e&amp;690" title="10.1正则表达式" src="http://s15.sinaimg.cn/middle/c1444d1dzx6D3VJtF3U9e&amp;690">

将/etc/passwd的内容显示并找印行号,同时将2~5删除

aimg.cn/middle/c1444d1dzx6D3VJxe3iec&amp;690" title="10.1正则表达式" src="http://s13.sinaimg.cn/middle/c1444d1dzx6D3VJxe3iec&amp;690">

附:nl命令在linux系统中用来计算文件中行号。nl 可以将输出的文件内容自动的加上行号

如果只要删除第2行,可以使用nl /etc/passwd | sed '2d' 来达成,至于若是要删除第 3 到最后一行,则是nl /etc/passwd | sed '3,$d'的啦。

3.增加行:a命令(在指定的行后新增)或i命令(在指定的行前新增)

a的后面可以接字符串,而这些字符串会在新的一行出现

在/etc/passwd的第二行后增加"XXXXX"字样的新行

aimg.cn/middle/c1444d1dzx6D3VJqOra7c&amp;690" title="10.1正则表达式" src="http://s13.sinaimg.cn/middle/c1444d1dzx6D3VJqOra7c&amp;690">

在/etc/passwd的第二行前增加"XXXXX"字样的新行

aimg.cn/middle/c1444d1dzx6D3VJuP2q62&amp;690" title="10.1正则表达式" src="http://s3.sinaimg.cn/middle/c1444d1dzx6D3VJuP2q62&amp;690">

如果要同时新增多行,则每行之间要用反斜杠\来进行新行的添加

aimg.cn/middle/c1444d1dzx6D3VJFbS9f1&amp;690" title="10.1正则表达式" src="http://s2.sinaimg.cn/middle/c1444d1dzx6D3VJFbS9f1&amp;690">

4、取代行:c命令

c的后面可以接字符串,这些字符串可以取代n1,n2之间的行

aimg.cn/middle/c1444d1dzx6D3VJIDW038&amp;690" title="10.1正则表达式" src="http://s9.sinaimg.cn/middle/c1444d1dzx6D3VJIDW038&amp;690">

5、打印:p命令

sed '/north/p' datafile 默认输出所有行,找到north的行重复打印

sed –n '/north/p' datafile 禁止默认输出,只打印找到north的行

nl /etc/passwd | sed -n '5,7p' 仅列出/etc/passwd文件中的第5~7行内容

注:sed 的-i选项可以直接修改文件中的内容

aimg.cn/middle/c1444d1dzx6D3VJD3tjdd&amp;690" title="10.1正则表达式" src="http://s14.sinaimg.cn/middle/c1444d1dzx6D3VJD3tjdd&amp;690">

6.扩展:

调用sed有三种方式:

  • 在命令行键入命令
  • sed命令插入脚本文件,然后调用sed
  • sed命令插入脚本文件,并使sed脚本可执行。
  1. 使用sed命令行格式为:

    sed [选项] sed命令输入文件。

    记住在命令行使用sed命令时,实际命令要加单引号。sed也允许加双引号。

B、使用sed脚本文件,格式为:

sed [选项] -f sed脚本文件 输入文件

C、要使用第一行具有sed命令解释器的sed脚本文件,其格式为:

sed脚本文件 [选项] 输入文件

不管是使用shell命令行方式或脚本文件方式,如果没有指定输入文件, sed从标准输入中接受输入,一般是键盘或重定向结果。

sed选项如下:

-f,--filer=script-file 引导sed脚本文件名

综合举例:

通过sed脚本对test.txt进行处理,test.txt文件内容如下:

aimg.cn/middle/c1444d1dzx6D3VJHMhLa5&amp;690" title="10.1正则表达式" src="http://s6.sinaimg.cn/middle/c1444d1dzx6D3VJHMhLa5&amp;690">

创建sed脚本文件append.sed,通过sed脚本向test.txt中新增内容,脚本内容如下:

aimg.cn/middle/c1444d1dzx6D3VJLnVbad&amp;690" title="10.1正则表达式" src="http://s14.sinaimg.cn/middle/c1444d1dzx6D3VJLnVbad&amp;690">

保存它,增加可执行权限:chmod +x append.sed

运行脚本append.sed

aimg.cn/middle/c1444d1dzx6D3VJU5yu9e&amp;690" title="10.1正则表达式" src="http://s15.sinaimg.cn/middle/c1444d1dzx6D3VJU5yu9e&amp;690">

显示结果如下:

aimg.cn/middle/c1444d1dzx6D3VK18TQ9e&amp;690" title="10.1正则表达式" src="http://s15.sinaimg.cn/middle/c1444d1dzx6D3VK18TQ9e&amp;690">

现在查看其具体功能。

第一行是sed命令解释行。脚本在这一行查找sed以运行命令,这里定位在/bin。

第二行以/company/开始,这是附加操作起始位置。a\通知sed这是一个附加操作,首先应插入二个新行。

第三、四行是附加操作要加入到拷贝的实际文本。

这里只举例通过sed脚本增加新行的操作,有关sed的其他操作大家要会举一反三

10.1正则表达式的更多相关文章

  1. Html5 canvas实现粒子时钟的示例代码

    这篇文章主要介绍了Html5 canvas实现粒子时钟的示例代码,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧

  2. HTML5数字输入仅接受整数的实现代码

    这篇文章主要介绍了HTML5数字输入仅接受整数的实现代码,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下

  3. Html5原创俄罗斯方块(基于canvas)

    这篇文章主要介绍了Html5原创俄罗斯方块(基于canvas)的相关资料,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧

  4. ios – 使用大写符号在字符串swift中获取URL的正则表达式

    我尝试在文本中获取URL.所以,在此之前,我使用了这样一个表达式:但是当用户输入带有大写符号的URL时(例如Http://Google.com,它与它不匹配)我遇到了问题.我试过了:但什么都没发生.解决方法您可以使用正则表达式中的i内联标志关闭区分大小写,有关可用正则表达式功能的详细信息,请参阅FoundationFrameworkReference.(?ismwx-ismwx)Flagsetti

  5. 在Xcode4中,你可以更改用于显示隐形字符的字符吗?

    我更喜欢VisualStudio显示隐形的方式……

  6. ios – 应用程序商店描述特殊字符

    是不是可以在AppStore描述中使用像星星这样的特殊字符了?我得到这个错误:描述不得包含标记语言.说明不得包含以下字符:★提前致谢:)解决方法仍然允许一些unicode字符.以下字符已经过测试并仍然有效:◆√至于现在他们工作正常,但苹果可以随时再次改变条件.

  7. ios – 将数组中的字符转换为整数

    即使我搜索了文档,我似乎无法弄清楚如何做到这一点.我试图弄清楚如何将数组中索引处的字符转换为整数.例如,假设我有一个名为“容器”的字符数组,我无法弄清楚该怎么做:谢谢您的帮助!解决方法Swift并不容易在原始和类型表示之间进行转换.这是一个在此期间应该有所帮助的扩展:这使您可以非常接近您想要的:对于遇到此问题的任何工程师,请参阅rdar://17494834

  8. ios – 如何在Swift 3中使用正则表达式?

    解决方法我相信.当没有其他选项适用时,将使用.allZeros.因此,使用Swift3,您可以传递一个空的选项列表或省略options参数,因为它默认为无选项:要么请注意,在Swift3中,您不再使用error参数.它现在抛出.

  9. ios – lldb断点在类目标c中的所有方法

    如何使用lldb在ObjectiveC类中的所有方法上自动设置断点?

  10. ios – 创建一个包含n个空格或其他重复字符的字符串

    我想使用Swift使用n个空格进行字符串,但不使用for循环或手动如下所示:解决方法String已经有一个repeating:count:initializer就像Array(和其他采用RangeReplaceableIndexable协议的集合):所以你可以打电话:请注意,重复的参数是一个字符串,而不仅仅是一个字符,因此您可以重复整个序列:编辑:更改为Swift3语法,并删除了关于Swift1类

随机推荐

  1. 法国电话号码的正则表达式

    我正在尝试实施一个正则表达式,允许我检查一个号码是否是一个有效的法国电话号码.一定是这样的:要么:这是我实施的但是错了……

  2. 正则表达式 – perl分裂奇怪的行为

    PSperl是5.18.0问题是量词*允许零空间,你必须使用,这意味着1或更多.请注意,F和O之间的空间正好为零.

  3. 正则表达式 – 正则表达式大于和小于

    我想匹配以下任何一个字符:或=或=.这个似乎不起作用:[/]试试这个:它匹配可选地后跟=,或者只是=自身.

  4. 如何使用正则表达式用空格替换字符之间的短划线

    我想用正则表达式替换出现在带空格的字母之间的短划线.例如,用abcd替换ab-cd以下匹配字符–字符序列,但也替换字符[即ab-cd导致d,而不是abcd,因为我希望]我如何适应以上只能取代–部分?

  5. 正则表达式 – /bb | [^ b] {2} /它是如何工作的?

    有人可以解释一下吗?我在t-shirt上看到了这个:它似乎在说:“成为或不成为”怎么样?我好像没找到’e’?

  6. 正则表达式 – 在Scala中验证电子邮件一行

    在我的代码中添加简单的电子邮件验证,我创建了以下函数:这将传递像bob@testmymail.com这样的电子邮件和bobtestmymail.com之类的失败邮件,但是带有空格字符的邮件会漏掉,就像bob@testmymail也会返回true.我可能在这里很傻……当我测试你的正则表达式并且它正在捕捉简单的电子邮件时,我检查了你的代码并看到你正在使用findFirstIn.我相信这是你的问题.findFirstIn将跳转所有空格,直到它匹配字符串中任何位置的某个序列.我相信在你的情况下,最好使用unapp

  7. 正则表达式对小字符串的暴力

    在测试小字符串时,使用正则表达式会带来性能上的好处,还是会强制它们更快?不会通过检查给定字符串的字符是否在指定范围内比使用正则表达式更快来强制它们吗?

  8. 正则表达式 – 为什么`stoutest`不是有效的正则表达式?

    isthedelimiter,thenthematch-only-onceruleof?PATTERN?

  9. 正则表达式 – 替换..与.在R

    我怎样才能替换..我尝试过类似的东西:但它并不像我希望的那样有效.尝试添加fixed=T.

  10. 正则表达式 – 如何在字符串中的特定位置添加字符?

    我正在使用记事本,并希望使用正则表达式替换在字符串中的特定位置插入一个字符.例如,在每行的第6位插入一个逗号是什么意思?如果要在第六个字符后添加字符,请使用搜索和更换从技术上讲,这将用MatchGroup1替换每行的前6个字符,后跟逗号.

返回
顶部