【python学习】re模块――正则表达式

2020-06-28 原文

1.正则表达式语法:

．表示任意字符

［］用来匹配一个指定的字符类别，所谓的字符类别就是你想匹配的一个字符集，对于字符集中的字符可以理解成或的关系。

^ 如果放在字符串的开头，则表示取非的意思。[^5]表示除了5之外的其他字符。而如果^不在字符串的开头，则表示它本身。

具有重复功能的元字符：

* 对于前一个字符重复0到无穷次

对于前一个字符重复1到无穷次

？对于前一个字符重复0到1次

{m,n} 对于前一个字符重复次数在为m到n次，其中，{0,} = *,{1,} =,{0,1} = ?

{m} 对于前一个字符重复m次

\d 匹配任何十进制数；它相当于类 [0-9]。

\D 匹配任何非数字字符；它相当于类 [^0-9]。

\s 匹配任何空白字符；它相当于类 [ fv]。

\S 匹配任何非空白字符；它相当于类 [^ fv]。

\w 匹配任何字母数字字符；它相当于类 [a-zA-Z0-9_]。

\W 匹配任何非字母数字字符；它相当于类 [^a-zA-Z0-9_]。

2.martch和search的区别

Python提供了两种不同的原始操作：match和search。match是从字符串的起点开始做匹配，而search（perl默认）是从字符串做任意匹配。

注意：当正则表达式是' ^ '开头时，match与search是相同的。match只有当且仅当被匹配的字符串开头就能匹配或从pos参数的位置开始就能匹配时才会成功。如下：

>>> import re

>>> re.match("c","abcdef")

>>> re.search("c","abcdef")

<_sre.SRE_Match object at 0x00A9A988>

>>> re.match("c","cabcdef")

<_sre.SRE_Match object at 0x00A9AB80>

>>> re.search("c","cabcdef")

<_sre.SRE_Match object at 0x00AF1720>

>>> patterm = re.compile("c")

>>> patterm.match("abcdef")

>>> patterm.match("abcdef",1)

>>> patterm.match("abcdef",2)

<_sre.SRE_Match object at 0x00A9AB80>

3.模块内容

re.compile(pattern,flags=0)

编译正则表达式，返回RegexObject对象，然后可以通过RegexObject对象调用match()和search()方法。

prog = re.compile(pattern)

result = prog.match(string)

跟

result = re.match(pattern,string)

是等价的。

第一种方式能实现正则表达式的重用。

re.search(pattern,string,flags=0)

在字符串中查找，是否能匹配正则表达式。返回_sre.SRE_Match对象，如果不能匹配返回None。

re.match(pattern,flags=0)

字符串的开头是否能匹配正则表达式。返回_sre.SRE_Match对象，如果不能匹配返回None。

re.split(pattern,maxsplit=0)

通过正则表达式将字符串分离。如果用括号将正则表达式括起来，那么匹配的字符串也会被列入到list中返回。maxsplit是分离的次数，maxsplit=1分离一次，默认为0，不限制次数。

>>> re.split('\W+','Words,words,words.')

['Words','words','']

>>> re.split('(\W+)',','.','']

>>> re.split('\W+',words.',1)

['Words','words,words.']

>>> re.split('[a-f]+','0a3B9',flags=re.IGnorECASE)

注意：我使用的Python是2.6，查看源代码发现split()并没有flags的参数，2.7才增加。这种问题我发现不止一次了，官方的文档跟源码不一致的现象，如果发现异常，应该去源码中找找原因。

如果在字符串的开始或结尾就匹配，返回的list将会以空串开始或结尾。

>>> re.split('(\W+)','...words,words...')

['','...','']

如果字符串不能匹配，将会返回整个字符串的list。

>>> re.split("a","bbb")

['bbb']

re.findall(pattern,flags=0)

找到 RE 匹配的所有子串，并把它们作为一个列表返回。这个匹配是从左到右有序地返回。如果无匹配，返回空列表。

>>>re.findall("a","bcdef")
[]
>>>re.findall(r"\d+","12a32bc43jf3")
['12','32','43','3']

f=open("/tmp/a.log","r")
ipaddress=[]
lines=f.readlines()
forlineinlines:
ipaddress.extend(re.findall(r'([1-2]?\d?\d\.[1-2]?\d?\d\.[1-2]?\d?\d\.[1-2]?\d?\d)',line))
printipaddress
f.close()

re.finditer(pattern,flags=0)

找到 RE 匹配的所有子串，并把它们作为一个迭代器返回。这个匹配是从左到右有序地返回。如果无匹配，返回空列表。

>>> it = re.finditer(r"\d+","12a32bc43jf3")

>>> for match in it:

print match.group()

re.sub(pattern,repl,count=0,flags=0)

找到 RE 匹配的所有子串，并将其用一个不同的字符串替换。可选参数 count 是模式匹配後替换的最大次数；count 必须是非负整数。缺省值是 0 表示替换所有的匹配。如果无匹配，字符串将会无改变地返回。

inputStr="hello111world123"

removeImg=re.compile('\d+')

replacedStr=re.sub("\d+","xxx",inputStr)

x=re.sub(removeImg,"",inputStr)

printx

printreplacedStr

re.subn(pattern,flags=0)

与re.sub方法作用一样，但返回的是包含新字符串和替换执行次数的两元组。

re.escape(string)

对字符串中的非字母数字进行转义

re.purge()

清空缓存中的正则表达式

4.正则表达式对象

re.RegexObject

re.compile()返回RegexObject对象

re.MatchObject

group()返回被 RE 匹配的字符串

start()返回匹配开始的位置

end()返回匹配结束的位置

span()返回一个元组包含匹配 (开始,结束) 的位置

5.编译标志

编译标志让你可以修改正则表达式的一些运行方式。在 re 模块中标志可以使用两个名字，一个是全名如 IGnorECASE，一个是缩写，一字母形式如 I。（如果你熟悉 Perl 的模式修改，一字母形式使用同样的字母；例如 re.VERBOSE的缩写形式是 re.X。）多个标志可以通过按位 OR-ing 它们来指定。如 re.I | re.M 被设置成 I 和 M 标志：

IGnorECASE

使匹配对大小写不敏感；字符类和字符串匹配字母时忽略大小写。举个例子，[A-Z]也可以匹配小写字母，Spam 可以匹配 "Spam","spam",或 "spAM"。这个小写字母并不考虑当前位置。

LOCALE

影响 "w,"W,"b,和 "B，这取决于当前的本地化设置。

locales 是 C 语言库中的一项功能，是用来为需要考虑不同语言的编程提供帮助的。举个例子，如果你正在处理法文文本，你想用 "w+ 来匹配文字，但 "w 只匹配字符类 [A-Za-z]；它并不能匹配 "é" 或 "?"。如果你的系统配置适当且本地化设置为法语，那么内部的 C 函数将告诉程序 "é" 也应该被认为是一个字母。当在编译正则表达式时使用 LOCALE 标志会得到用这些 C 函数来处理 "w 後的编译对象；这会更慢，但也会象你希望的那样可以用 "w+ 来匹配法文文本。

MULTILINE

(此时 ^ 和 $ 不会被解释; 它们将在 4.1 节被介绍.)

使用 "^" 只匹配字符串的开始，而 $ 则只匹配字符串的结尾和直接在换行前（如果有的话）的字符串结尾。当本标志指定後， "^" 匹配字符串的开始和字符串中每行的开始。同样的， $ 元字符匹配字符串结尾和字符串中每行的结尾（直接在每个换行之前）。

DOTALL

使 "." 特殊字符完全匹配任何字符，包括换行；没有这个标志， "." 匹配除了换行外的任何字符。

VERBOSE

该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解。当该标志被指定时，在 RE 字符串中的空白符被忽略，除非该空白符在字符类中或在反斜杠之後；这可以让你更清晰地组织和缩进 RE。它也可以允许你将注释写入 RE，这些注释会被引擎忽略；注释用 "#"号来标识，不过该符号不能在字符串或反斜杠之後。

最后：如果能用字符串的方法，就不要选择正则表达式，因为字符串方法更简单快速。

【python学习】re模块――正则表达式的更多相关文章

HTML5数字输入仅接受整数的实现代码

这篇文章主要介绍了HTML5数字输入仅接受整数的实现代码,本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
如何在iOS中检测文本(字符串)语言？

例如,给定以下字符串：我想检测每个声明的字符串中使用的语言.让我们假设已实现函数的签名是：如果没有检测到语言,则返回可选字符串.因此,适当的结果将是：有一个简单的方法来实现它吗？
ios – 使用大写符号在字符串swift中获取URL的正则表达式

我尝试在文本中获取URL.所以,在此之前,我使用了这样一个表达式：但是当用户输入带有大写符号的URL时(例如Http://Google.com,它与它不匹配)我遇到了问题.我试过了：但什么都没发生.解决方法您可以使用正则表达式中的i内联标志关闭区分大小写,有关可用正则表达式功能的详细信息,请参阅FoundationFrameworkReference.(?ismwx-ismwx)Flagsetti
XCode 3.2 Ruby和Python模板

在xcode3.2下,我的ObjectiveCPython/Ruby项目仍然可以打开更新和编译,但是你无法创建新项目.鉴于xcode3.2中缺少ruby和python的所有痕迹(即创建项目并添加新的ruby/python文件),是否有一种简单的方法可以再次安装模板？我发现了一些关于将它们复制到某个文件夹的信息,但我似乎无法让它工作,我怀疑文件夹的位置已经改变为3.2.解决方法3.2中的应用程序模板
ios – 如何在Swift 3中使用正则表达式？

解决方法我相信.当没有其他选项适用时,将使用.allZeros.因此,使用Swift3,您可以传递一个空的选项列表或省略options参数,因为它默认为无选项：要么请注意,在Swift3中,您不再使用error参数.它现在抛出.
ios – lldb断点在类目标c中的所有方法

如何使用lldb在ObjectiveC类中的所有方法上自动设置断点？
ios – Swift：如何从不同的swift文件中调用函数

我的Xcode6beta-2项目中有多个类型为UIViewController的swift文件.我基本上想知道文件A中的一些数据在文件B中使用.我的文件都是UIViewControllers,我创建了一个没有参数的函数,它返回UIViewController_A中的字符串.当我尝试在UIViewController_B中调用所述函数时,intellisense为我填写,但是我必须有一个自动填充为U
ios – 如何使用SwiftyJSON将字符串转换为JSON

要转换的字符串：[{“description”：“Hi”,“id”：2,“img”：“hi.png”},{“description”：“pet”,“id”：10,“img”：“pet.png“},{”description“：”Hello！：D“,”id“：12,”img“：”hello.png“}]转换字符串的代码：varjson=JSON该字符串转换为JSON,当我尝试计算这个JSON里面有多少个块时,我得到0.打印控制台输出：0我失踪了什么帮助非常感激.解决方法实际上,在SwifyJSON中有一个内
ios – 将两个字符串转换为一组布尔值的快速方法是什么？

我有一个长字符串,我想转换为一个布尔值数组.而且它需要很多次,很快.我天真的尝试是这样的：但这比我想要的要慢很多.我的剖析告诉我,地图是减速的地方,但我不知道我能做多么简单.我觉得如果没有Swift’s/ObjC的开销,这样做会很快.在C中,我认为这是一个简单的循环,其中一个字节的内存与一个常量进行比较,但我不知道我应该看的是什么函数或语法.有更好的办法吗？
寒城攻略：Listo 教你 25 天学会 Swift 语言－ 05 Strings and Characters

Swift所代表的字符串是字符串类型,进而代表字符类型的值的集合//Swift的String和Character类型提供了一个快速的，兼容Unicode的方式来处理代码中的文本信息。每一个字符值代表一个Unicode字符，我们可以利用for－in循环来遍历字符串中的每一个字符println}//定义一个字符常量letyenSign:Character="$"printlncharacters")//使用"countElements()"函数来获取字符串的长度//8.ConcatenatingStrings

随机推荐

法国电话号码的正则表达式

我正在尝试实施一个正则表达式,允许我检查一个号码是否是一个有效的法国电话号码.一定是这样的：要么：这是我实施的但是错了……
正则表达式 – perl分裂奇怪的行为

PSperl是5.18.0问题是量词*允许零空间,你必须使用,这意味着1或更多.请注意,F和O之间的空间正好为零.
正则表达式 – 正则表达式大于和小于

我想匹配以下任何一个字符：或=或=.这个似乎不起作用：[/]试试这个：它匹配可选地后跟=,或者只是=自身.
如何使用正则表达式用空格替换字符之间的短划线

我想用正则表达式替换出现在带空格的字母之间的短划线.例如,用abcd替换ab-cd以下匹配字符–字符序列,但也替换字符[即ab-cd导致d,而不是abcd,因为我希望]我如何适应以上只能取代–部分？
正则表达式 – /bb | [^ b] {2} /它是如何工作的？

有人可以解释一下吗？我在t-shirt上看到了这个：它似乎在说：“成为或不成为”怎么样？我好像没找到’e’？
正则表达式 – 在Scala中验证电子邮件一行

在我的代码中添加简单的电子邮件验证,我创建了以下函数：这将传递像bob@testmymail.com这样的电子邮件和bobtestmymail.com之类的失败邮件,但是带有空格字符的邮件会漏掉,就像bob@testmymail也会返回true.我可能在这里很傻……当我测试你的正则表达式并且它正在捕捉简单的电子邮件时,我检查了你的代码并看到你正在使用findFirstIn.我相信这是你的问题.findFirstIn将跳转所有空格,直到它匹配字符串中任何位置的某个序列.我相信在你的情况下,最好使用unapp
正则表达式对小字符串的暴力

在测试小字符串时,使用正则表达式会带来性能上的好处,还是会强制它们更快？不会通过检查给定字符串的字符是否在指定范围内比使用正则表达式更快来强制它们吗？
正则表达式 – 为什么`stoutest`不是有效的正则表达式？

isthedelimiter,thenthematch-only-onceruleof?PATTERN?
正则表达式 – 替换..与.在R

我怎样才能替换..我尝试过类似的东西：但它并不像我希望的那样有效.尝试添加fixed=T.
正则表达式 – 如何在字符串中的特定位置添加字符？

我正在使用记事本,并希望使用正则表达式替换在字符串中的特定位置插入一个字符.例如,在每行的第6位插入一个逗号是什么意思？如果要在第六个字符后添加字符,请使用搜索和更换从技术上讲,这将用MatchGroup1替换每行的前6个字符,后跟逗号.