Python标准库re的使用举例(正则化匹配)

2023-04-30 原文

常用正则表达式

正则表达式                                                              描述                                    匹配结果
\d (\.\d*)?                                                       任意整数和浮点数                            0.004 2 75.

\b[^\Wa-z0-9_][^\WA-Z0-9_]*\b                                      首字母只能大写                               Boo Foo

^http:\/\/([\w-] (\.[\w-] ) (\/[\w-.\/\?%&=\u4e00-\u9fa5]*)?)?$      验证网址                           http://www.baidu.com/?id=1

^[\u4e00-\u9fa5]{0,}$                                                验证汉字                                 汉字汉字

\w ([- .']\w )*@\w ([-.]\w )*\.\w ([-.]\w )*                       验证电子邮件                             example@163.com

^[1-9]([0-9]{16}|[0-9]{13})[xX0-9]$                                 验证身份证                            14525419951215445X

^13[0-9]{1}[0-9]{8}|^15[9]{1}[0-9]{8}                               验证手机号                             138459572***

^(25[0-5]|2[0-4][0-9]|[0-1]{1}[0-9]{2}|[1-9]{1}[0-9]{1}|[1-9])          验证IP                             192.168.1.1
\.(25[0-5]|2[0-4][0-9]|[0-1]{1}[0-9]{2}|[1-9]{1}[0-9]{1}|[1-9]|0)
\.(25[0-5]|2[0-4][0-9]|[0-1]{1}[0-9]{2}|[1-9]{1}[0-9]{1}|[1-9]|0)
\.(25[0-5]|2[0-4][0-9]|[0-1]{1}[0-9]{2}|[1-9]{1}[0-9]{1}|[0-9])$	

^[a-zA-Z0-9] ([a-zA-Z0-9\-\.] )?\.s|)$                                验证域名                                baidu.com

^([a-zA-Z]\:|\\)\\([^\\] \\)*[^\/:*?"<>|] \.txt(l)?$               验证文件路径	                             C:\user\wo

<(.*)>(.*)<\/(.*)>|<(.*)\/>                                        HTML标签匹配(需修改)                          xxxx

一，必备知识

1.修饰符（flag）

re.I  使匹配对大小写不敏感
re.L  做本地化识别匹配
re.M  多行匹配,影响^和$
re.S  使.匹配包括换行在内的所有字符
re.U  根据Unicode字符集解析字符.这个标志影响\w \W \b \B
re.X  该标志通过给予你更灵活的格式以便你将正则表达式写的更易于理解.

# 例子 result = re.match('^The.*?(\d ).*?phone.', content, re.S)

2.匹配模式

^ 匹配字符串开头
$ 匹配字符串结尾
. 匹配人以字符,除了换行符号.当re.DOTAALL标记被指定时,则可以匹配包括换行符的任意字符.
[...] 用来表示一组字符,单独列出:[amk]匹配a,m或k
[^...] 不在[]中的字符:[^amk]匹配除amk之外的字符
re* 匹配0个或多个的表达式
re 匹配1个或多个的表达式
re? 匹配0个或1个由前面的正则表达式定义的片段,非贪婪方式.
re{n} 精准匹配n个前面表达式
re{n,} 匹配大于等于n个前面表达式
re{n,m} 匹配n到m个前面的表达式定义的片段,贪婪方式
a|b 匹配a或b
(re) 对正则表达式分组,并记住匹配的文本
(?imx) 正则表达式包含三种可选标志,imx,只影响括号中的区域.
(?-imx) 正则表达式关闭imx可选标志,只影响括号中的区域.
(?:re) 类似(...)但不表示一个组
(?imx:re) 在括号中使用imx可选标志
(?-imx:re) 在括号中不是用imx可选标志
(?#...) 注释
(?=re) 前向肯定界定符.如果所含正则表达式,以...表示,在当前位置成功匹配时成功,否则失败.但一旦所含表达式已经尝试,匹配引擎根本没有提高,模式的剩余部分还要尝试界定符右边.
(?!re) 前向否定界定符.与肯定界定符相反;当所含的表达式不能在字符串当前位置匹配成功时成功.
(?>re) 匹配的独立模式,省去回朔.
\w 匹配字符数字以及下划线
\W 匹配非字母数字下划线
\s 匹配任意空白字符,等价于[\t\n\r\f]
\S 匹配任意非空白字符
\d 匹配任意数字
\D 匹配任意非数字
\A 匹配字符串开始
\Z 匹配字符串结束,如果是存在换行,只匹配到换行前的结束字符串.
\z 匹配字符串结束
\G 匹配最后匹配完成的位置
\b 匹配一个单词边界,也就是指单词和空格之间的位置
\B 匹配非单词边界
\n \t 匹配一个换行符,一个制表符
\1...\9 匹配第n个分组的内容

3. r的作用

r’(\w ) (\w )(?P.*)’，字符串之前的r可以避免转行符混淆

正则表达式使用反斜杠来表示特殊形式，或者把特殊字符转义成普通字符。

而反斜杠在普通的 Python 字符串里也有相同的作用，所以就产生了冲突。

解决办法是对于正则表达式样式使用 Python 的原始字符串表示法；在带有 ‘r’ 前缀的字符串字面值中，反斜杠不必做任何特殊处理。

import re

if re.search(r'\\d', 'I have one nee\dle') is not None:
    print('match it',re.search(r'\\d', 'I have one nee\dle').group(0))
else:
    print('not match')

# match it \d

4. 贪婪与非贪婪—通配符后面加？

在贪婪匹配下，.* 会匹配尽可能多的字符。

正则表达式中.*后面是\d ，也就是至少一个数字，并没有指定具体多少个数字，因此，.*就尽可能匹配多的字符，这里就把12345匹配了，给\d 留下个可满足条件的数字 6.最后得到的内容就只有数字6了

import re

content = 'The 123456 is my one phone number.'
print('贪婪匹配:')
result = re.match(r'^The.*(\d ).*', content) #使用match匹配, 第一个参数为正则表达式, 第二个为要匹配的字符串
print(result.group()) #输出匹配内容
print('result = %s'%result.group(1)) #输出第一个被()包裹的内容

print('-'*20)

print('非贪婪匹配:')
result = re.match(r'^The.*?(\d ).*', content) 
print(result.group())
print('result = %s'%result.group(1))

# 贪婪匹配:
# The 123456 is my one phone number.
# result = 6
# --------------------
# 非贪婪匹配:
# The 123456 is my one phone number.
# result = 123456

5.转义匹配的使用

由于()属于正则表达式的特殊字符, 因此在需要匹配()时, 需要加上转义字符\.

import re

content = '(百度)www.baidu.com'
result = re.match('(百度)www.baidu.com', content)
result2 = re.match('\(百度\)www\.baidu\.com', content)
if result:
    print(result.group())
else:
    print('result = None')
if result2:
    print(result2.group())
else:
    print('result2 = None')

# result = None
# (百度)www.baidu.com

6. group(num = 0)和groups( )

group 函数有一个int类型的参数，参数为0表示返回正则匹配的字符串，参数为1返回正则中第一个组匹配的内容，2返回第二组的内容一次类推
groups 函数是所有group函数结果组成一个元组。

二，函数应用

1. re.compile(pattern,flags=0)—自定义匹配模板

他的第一个参数是正则字符串，第二个参数是修饰符
编译成一个正则表达式对象，可以用于匹配match/search/findall 方法序列
在需要匹配相同正则表达式情况下, 事先定义一个compile可以简化代码量, 同时compile中也可以使用修饰符r.S等.

import re

content1 = '2016-1-1 12:01'
content2 = '2017-1-1 12:02'
content3 = '2018-1-1 12:03'

pattern = re.compile('\d{2}:\d{2}')
result1 = re.sub(pattern, '', content1)
result2 = re.sub(pattern, '', content2)
result3 = re.sub(pattern, '', content3)
print(result1, result2, result3)

#2016-1-1  2017-1-1  2018-1-1

2. re.match(pattern,string,flags=0)—从第一个字符开始匹配

该函数从第一个字符开始匹配，如果第一个对不上，就不可能匹配到数据。

从第一个字符开始进行匹配，不成功则返回None。
一个正则表达式中若有多个（）可用group方法输出，比如：ex_re=re.match(‘(.?)actor(.?)$’),可用ex_re.group()访问生成的列表，可用ex_re.group(0)访问第一个括号里的元素。
pettern 就是正则字符串，如果是通过re.compile方法生成的正则对象.match来调用的话，就不需要这个参数了，因为正则对象本身就代表了一个正则匹配模式。
string 就是要进行匹配的目标字符串
flags 就是正则的修饰符，比如 re.I

import re
regex = '(foo\w)(\w)'
m = re.match(r'(foo\w)(\w)','fooasdfooasd')
if m is not None:
    print(m.group(1))
    print(m.groups())

#输出
#fooa
#('fooa', 's')

3. re.search(pattern,string,flags=0)—不固定开始，但是只匹配第一个

re.search()并不要求必须从字符串的开头进行匹配如match()，也就是说，正则表达式可以是字符串的一部分。
用法基本与match相同，只不过是扫描整个字符串，从一开始匹配到的地方开始。

import re
regex = '<(.*)>(.*)<\/(.*)>|<(.*)\/>'
m = re.search(regex,"aa<a>aaaa</a>")
#一样只有search能匹配到标签
if m is not None:
    print(m)
    print(m.group())

# 结果
# <re.Match object; span=(2, 13), match='<a>aaaa</a>'>
# <a>aaaa</a>

4. re.findall(pattern, string，[, flags])—匹配所有数据

match()和search()都是返回匹配到的第一个内容就结束匹配, findall()是返回所有符合匹配规则的内容
搜索字符串内，以列表形式返回全部能匹配的子串。

import re
text = "I am so happy! "
array1 = re.findall("[a-zA-Z]", text)
array2 = re.findall("[a-zA-Z] ", text)
print(array1)
print(array2)

#结果
# ['I', 'a', 'm', 's', 'o', 'h', 'a', 'p', 'p', 'y']
# ['I', 'am', 'so', 'happy']

5. finditer(pattern, string，[,flags] )—返回的是匹配到的迭代器对象

与findall()相同，但返回的是一个迭代器。对于每一次匹配，迭代器都能返回一个匹配对象

import re
regex = 'apple'
m = [ g.group() for g in re.finditer(regex,'apple1 apple2 apple3')]
print(m)
#输出
#['apple', 'apple', 'apple']

6. split(pattern, string, max = 0)

根据正则表达式的模式分隔符，split函数将字符串分割为列表，返回匹配列表，分割最多操作max次

import re
list = [
'aaa,bbb,ccc',
'ddd,eee,fff',
]
for i in list:
    print(re.split(',',i))

# ['aaa', 'bbb', 'ccc']
# ['ddd', 'eee', 'fff']

7. re.sub(pattern, repl, string, count=0, flags=0)—可正则的字符串替换

替换字符串中的某些子串，可以用正则表达式来匹配被选子串。

pattern：表示正则表达式中的模式字符串；

repl：被替换的字符串（既可以是字符串，也可以是函数）；

string：要被处理的，要被替换的字符串；

count：匹配的次数, 默认是全部替换

import re
st = "hello 2019"
st = re.sub("([0-9] )","yudengwu",st)
print(st)

#结果
# hello yudengwu

8. str.replace(old, new，max)—不是re函数，仅用作字符串替换

替代字符串中的某一些子串为另一些字符。
old – 将被替换的子字符串。
new – 新字符串，用于替换old子字符串。
max – 可选字符串, 替换不超过 max 次

import re
st = "我喜欢你，喜欢你"
st = st.replace("喜欢","爱",1)
print(st)

# 我爱你，喜欢你

总结

到此这篇关于Python标准库re的使用举例的文章就介绍到这了,更多相关Python标准库re使用内容请搜索Devmax以前的文章或继续浏览下面的相关文章希望大家以后多多支持Devmax！

Python标准库re的使用举例(正则化匹配)的更多相关文章

XCode 3.2 Ruby和Python模板

在xcode3.2下,我的ObjectiveCPython/Ruby项目仍然可以打开更新和编译,但是你无法创建新项目.鉴于xcode3.2中缺少ruby和python的所有痕迹(即创建项目并添加新的ruby/python文件),是否有一种简单的方法可以再次安装模板？我发现了一些关于将它们复制到某个文件夹的信息,但我似乎无法让它工作,我怀疑文件夹的位置已经改变为3.2.解决方法3.2中的应用程序模板
Swift基本使用-函数和闭包(三)

声明函数和其他脚本语言有相似的地方，比较明显的地方是声明函数的关键字swift也出现了Python中的组元，可以通过一个组元返回多个值。传递可变参数，函数以数组的形式获取参数swift中函数可以嵌套，被嵌套的函数可以访问外部函数的变量。可以通过函数的潜逃来重构过长或者太复杂的函数。
10 个Python中Pip的使用技巧分享

众所周知，pip 可以安装、更新、卸载 Python 的第三方库，非常方便。本文小编为大家总结了Python中Pip的使用技巧，需要的可以参考一下
Swift、Go、Julia与R能否挑战 Python 的王者地位

本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至dio@foxmail.com举报，一经查实，本站将立刻删除。
红薯因 Swift 重写开源中国失败，貌似欲改用 Python

本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至dio@foxmail.com举报，一经查实，本站将立刻删除。
你没看错：Swift可以直接调用Python函数库

上周Perfect又推出了新一轮服务器端Swift增强函数库：Perfect-Python。对，你没看错，在服务器端Swift其实可以轻松从其他语种的函数库中直接拿来调用，不需要修改任何内容。以如下python脚本为例：Perfect-Python可以用下列方法封装并调用以上函数，您所需要注意的仅仅是其函数名称以及参数。
Swift中的列表解析

在Swift中完成这个的最简单的方法是什么？我在寻找类似的东西：从Swift2.x开始，有一些与你的Python样式列表解析相当的东西。(在这个意义上，它更像是Python的xrange。如果你想保持集合懒惰一路通过，只是这样说：与Python中的列表解析语法不同，Swift中的这些操作遵循与其他操作相同的语法。
swift抛出终端的python错误

每当我尝试启动与python相关的swift时,我都会收到错误.我该如何解决？
在Android上用Java嵌入Python

解决方法看看this,它适用于J2SE,你可以尝试在Android上运行.
在android studio中使用python代码构建android应用程序

我有一些python代码和它的机器人,我正在寻找一种方法来使用android项目中的那些python代码.有没有办法做到这一点！？解决方法有两种主要工具可供使用,它们彼此不同：>QPython>Kivy使用Kivy,大致相同的代码也可以部署到IOS.

随机推荐

10 个Python中Pip的使用技巧分享

众所周知，pip 可以安装、更新、卸载 Python 的第三方库，非常方便。本文小编为大家总结了Python中Pip的使用技巧，需要的可以参考一下
python数学建模之三大模型与十大常用算法详情

这篇文章主要介绍了python数学建模之三大模型与十大常用算法详情，文章围绕主题展开详细的内容介绍，具有一定的参考价值，感想取得小伙伴可以参考一下
Python爬取奶茶店数据分析哪家最好喝以及性价比

这篇文章主要介绍了用Python告诉你奶茶哪家最好喝性价比最高，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习吧
使用pyinstaller打包.exe文件的详细教程

PyInstaller是一个跨平台的Python应用打包工具，能够把 Python 脚本及其所在的 Python 解释器打包成可执行文件,下面这篇文章主要给大家介绍了关于使用pyinstaller打包.exe文件的相关资料,需要的朋友可以参考下
基于Python实现射击小游戏的制作

这篇文章主要介绍了如何利用Python制作一个自己专属的第一人称射击小游戏，文中的示例代码讲解详细，感兴趣的小伙伴可以跟随小编一起动手试一试
Python list append方法之给列表追加元素

这篇文章主要介绍了Python list append方法如何给列表追加元素，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
Pytest+Request+Allure+Jenkins实现接口自动化

这篇文章介绍了Pytest+Request+Allure+Jenkins实现接口自动化的方法，文中通过示例代码介绍的非常详细。对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
利用python实现简单的情感分析实例教程

商品评论挖掘、电影推荐、股市预测……情感分析大有用武之地,下面这篇文章主要给大家介绍了关于利用python实现简单的情感分析的相关资料,文中通过示例代码介绍的非常详细,需要的朋友可以参考下
利用Python上传日志并监控告警的方法详解

这篇文章将详细为大家介绍如何通过阿里云日志服务搭建一套通过Python上传日志、配置日志告警的监控服务，感兴趣的小伙伴可以了解一下
Pycharm中运行程序在Python console中执行,不是直接Run问题

这篇文章主要介绍了Pycharm中运行程序在Python console中执行,不是直接Run问题，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教