正则表达式入门(java,python版本)

2020-07-03 原文

注意上文加粗的‘概念’，即用英文来说，叫做concept。显然，正则表达式是跟编程语言无关的，因此，我们可以使用任何编程语言去实现和使用它。幸运的是，绝大多数编程语言都已经实现了正则表达式，并且提供了相应的类或者API接口，我们可以在程序中直接使用它，而无需去考虑底层是如何实现的。

正则表达式可以用来做什么

1 验证字符串是否符合指定特征，比如验证是否是合法的邮件地址。
2 用来查找字符串，从一个长的文本中查找符合指定特征的字符串
3 用来替换，比普通的替换更强大
4 等等…

基本语法

一个正则表达式通常被称为一个模式（pattern），为用来描述或者匹配一系列匹配某个句法规则的字符串。
语法很简单，就是一个“字符串”。
例如： "hello Regular Expression" 这个字符串:
我们可以用下面语法来筛选出来：
1"hello Regular Expression"
2 "hello*"
3 "hello.+"
4 "hello .+n"
...
这些**描述**筛选出来，这里我们可以先不用管里面的"*",".","+"是什么意思，我们只需知道这个可以作为一个正则表达式的表示形式(基本语法)。

元字符

上面的".","*","+"等字符都是正则表达式中的元字符，关于元字符的讲述，可以再新开一篇文章来讲解，这里提供一个正则表达式元字符含义的讲解链接，**请认真浏览完此页面再查看本文章的后面的内容。**
为了避免转载侵权和防止和谐，这里提供百度的地址：

正则表达式元字符说明

字符转义：

这里仍然有一个问题：如果我们需要匹配元字符本身，该如何处理？
那么就需要用到字符转义符号：'\'。
例如，如果我们需要从"test * test"匹配出 "*"这个符号，
那么正则表达式就要写成： "\*"，而不是"*",值得注意的是转义字符本身：
如果我们需要从"test \ test"匹配出 "\"这个符号，    
那么正则表达式就要写成： "\\\\"，而不是"\\"。

实例

上面看了这么多，接下来我们来看看具体的应用实例吧，以加深我们的印象。
下面的例子只提供了Python和Java版本，其它语言类似，可自行参考相应语言的api文档。

匹配出网页中的title标签和其中的内容
python 代码：

#!/usr/bin/python
# coding=utf-8
import re

reg_str = """ <!DOCTYPE html> <html> <head> <title>我是title</title> </head> <body> </body> </html> """
reg1 = u"<title>.+</title>"
reg2 = u"<title>.*</title>"
rst1 = re.search(reg1,reg_str)
rst2 = re.search(reg2,reg_str)

print rst1 and rst1.group()
print rst2 and rst2.group()

结果:

我是title
我是title
[Finished in 0.0s]

java 代码：

package regular_expression;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class Chapter1 {
    public static void main(String []args) {
        String reg_str = "<!DOCTYPE html><html><head>   <title>我是title</title></head><body></body></html>";
        String reg1 = "<title>.+</title>";
        String reg2 = "<title>.*</title>";

        Pattern p1=Pattern.compile(reg1);
        Matcher m1=p1.matcher(reg_str);     

        Pattern p2=Pattern.compile(reg2);
        Matcher m2=p2.matcher(reg_str);     

        if (m1.find()) {
            System.out.println(m1.group());         
        }
        if (m2.find()) {
            System.out.println(m2.group());         
        }
    }
}

结果：

<title>我是title</title>
<title>我是title</title>

结果解释：

"<title>.+</title>" 
# . 是正则表达式里面的元字符，查看元字符的文档可知，.表示 “匹配除换行符以外的任意字符”，因此他会匹配出
# <title>和</title>之间的任何非换行符。
# +也是正则表达式中的元字符，+表示匹配一次或者多次(即至少匹配一次，同{1,})
# 因此这个正则最终的意思就是 匹配<title>和</title>之间的任何非换行符，并且至少匹配一次

# 同理 *表示0次或多次，即匹配<title>和</title>之间的任何非换行符，并且至少匹配0次。

两个的差别就是：
+不能匹配出 “<title></title>”字符串
*可以匹配出 “<title></title>”字符串
因为<title>和</title>之间一个字符也没有，所以需要*才能匹配。

统计字符串中所有词的词性的个数

Python代码：

#!/usr/bin/python
# coding=utf-8
import re

reg_str = """ 词语1 \q 词语2 \w 词语3 \ee 词语1 \q 词语5 \w 词语6 \e 词语7 \c """

reg = u"\\\\[a-z]{1,2}"
rst2 = re.finditer(reg,reg_str)
# 词性个数
count_map = {}

for m in rst2:
    value = m.group()
    if (count_map.get(value)):
        count_map[value] = count_map[value] + 1
    else:
        count_map[value] = 1

for k,v in count_map.items():
    print '词性{}的个数为{}'.format(k,v)

结果：

词性\c的个数为1
词性\w的个数为2
词性\e的个数为1
词性\ee的个数为1
词性\q的个数为2
[Finished in 0.0s]

java代码：

package regular_expression;

import java.util.regex.Matcher;
import java.util.regex.Pattern;
import java.util.HashMap;
import java.util.Map.Entry;

public class Chapter1 {
    public static void main(String []args) {
        String reg_str = "词语1 \\q词语2 \\w词语3 \\ee词语1 \\q词语5 \\w词语6 \\e词语7 \\c";

        String reg ="\\\\[a-z]{1,2}";
        Pattern p=Pattern.compile(reg);
        Matcher m=p.matcher(reg_str);       
        // 词性个数
        HashMap<String,Integer> count_map = new HashMap<String,Integer>();
        String value = "";
        while (m.find()) {
            value = m.group();
            if (count_map.get(value) != null) {
                count_map.put(value,count_map.get(value) + 1);
            } else {
                count_map.put(value,1);
            }
        }
        for (Entry<String,Integer> entry: count_map.entrySet()){
            System.out.println("词性"+entry.getKey()+"的个数为"+ Integer.toString(entry.getValue())); 
        }       
    }
}

结果：

词性\q的个数为2
词性\c的个数为1
词性\e的个数为1
词性\w的个数为2
词性\ee的个数为1

结果解释：
“\\[a-z]{1,2} 表示匹配 ‘\’符号加上后面的任意1-2个英文小写字母。
即：\字母表示词性的话，那么这个正则就已经把所有词的词性的个数都已经筛选出来。最后再经过词性的map操作，就把所有词性的个数计算出来了。

PS：至于为什么是\\\\，文章前面已经提到。

参考链接：

1 https://zh.wikipedia.org/wiki/正则表达式

正则表达式入门(java,python版本)的更多相关文章

Html5 canvas实现粒子时钟的示例代码

这篇文章主要介绍了Html5 canvas实现粒子时钟的示例代码,小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
HTML5数字输入仅接受整数的实现代码

这篇文章主要介绍了HTML5数字输入仅接受整数的实现代码,本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
ios – 使用大写符号在字符串swift中获取URL的正则表达式

我尝试在文本中获取URL.所以,在此之前,我使用了这样一个表达式：但是当用户输入带有大写符号的URL时(例如Http://Google.com,它与它不匹配)我遇到了问题.我试过了：但什么都没发生.解决方法您可以使用正则表达式中的i内联标志关闭区分大小写,有关可用正则表达式功能的详细信息,请参阅FoundationFrameworkReference.(?ismwx-ismwx)Flagsetti
在Xcode4中,你可以更改用于显示隐形字符的字符吗？

我更喜欢VisualStudio显示隐形的方式……
XCode 3.2 Ruby和Python模板

在xcode3.2下,我的ObjectiveCPython/Ruby项目仍然可以打开更新和编译,但是你无法创建新项目.鉴于xcode3.2中缺少ruby和python的所有痕迹(即创建项目并添加新的ruby/python文件),是否有一种简单的方法可以再次安装模板？我发现了一些关于将它们复制到某个文件夹的信息,但我似乎无法让它工作,我怀疑文件夹的位置已经改变为3.2.解决方法3.2中的应用程序模板
ios – 应用程序商店描述特殊字符

是不是可以在AppStore描述中使用像星星这样的特殊字符了？我得到这个错误：描述不得包含标记语言.说明不得包含以下字符：★提前致谢：)解决方法仍然允许一些unicode字符.以下字符已经过测试并仍然有效：◆√至于现在他们工作正常,但苹果可以随时再次改变条件.
ios – 将数组中的字符转换为整数

即使我搜索了文档,我似乎无法弄清楚如何做到这一点.我试图弄清楚如何将数组中索引处的字符转换为整数.例如,假设我有一个名为“容器”的字符数组,我无法弄清楚该怎么做：谢谢您的帮助！解决方法Swift并不容易在原始和类型表示之间进行转换.这是一个在此期间应该有所帮助的扩展：这使您可以非常接近您想要的：对于遇到此问题的任何工程师,请参阅rdar：//17494834
ios – 如何在Swift 3中使用正则表达式？

解决方法我相信.当没有其他选项适用时,将使用.allZeros.因此,使用Swift3,您可以传递一个空的选项列表或省略options参数,因为它默认为无选项：要么请注意,在Swift3中,您不再使用error参数.它现在抛出.
ios – lldb断点在类目标c中的所有方法

如何使用lldb在ObjectiveC类中的所有方法上自动设置断点？
ios – 创建一个包含n个空格或其他重复字符的字符串

我想使用Swift使用n个空格进行字符串,但不使用for循环或手动如下所示：解决方法String已经有一个repeating:count:initializer就像Array(和其他采用RangeReplaceableIndexable协议的集合)：所以你可以打电话：请注意,重复的参数是一个字符串,而不仅仅是一个字符,因此您可以重复整个序列：编辑：更改为Swift3语法,并删除了关于Swift1类

随机推荐

法国电话号码的正则表达式

我正在尝试实施一个正则表达式,允许我检查一个号码是否是一个有效的法国电话号码.一定是这样的：要么：这是我实施的但是错了……
正则表达式 – perl分裂奇怪的行为

PSperl是5.18.0问题是量词*允许零空间,你必须使用,这意味着1或更多.请注意,F和O之间的空间正好为零.
正则表达式 – 正则表达式大于和小于

我想匹配以下任何一个字符：或=或=.这个似乎不起作用：[/]试试这个：它匹配可选地后跟=,或者只是=自身.
如何使用正则表达式用空格替换字符之间的短划线

我想用正则表达式替换出现在带空格的字母之间的短划线.例如,用abcd替换ab-cd以下匹配字符–字符序列,但也替换字符[即ab-cd导致d,而不是abcd,因为我希望]我如何适应以上只能取代–部分？
正则表达式 – /bb | [^ b] {2} /它是如何工作的？

有人可以解释一下吗？我在t-shirt上看到了这个：它似乎在说：“成为或不成为”怎么样？我好像没找到’e’？
正则表达式 – 在Scala中验证电子邮件一行

在我的代码中添加简单的电子邮件验证,我创建了以下函数：这将传递像bob@testmymail.com这样的电子邮件和bobtestmymail.com之类的失败邮件,但是带有空格字符的邮件会漏掉,就像bob@testmymail也会返回true.我可能在这里很傻……当我测试你的正则表达式并且它正在捕捉简单的电子邮件时,我检查了你的代码并看到你正在使用findFirstIn.我相信这是你的问题.findFirstIn将跳转所有空格,直到它匹配字符串中任何位置的某个序列.我相信在你的情况下,最好使用unapp
正则表达式对小字符串的暴力

在测试小字符串时,使用正则表达式会带来性能上的好处,还是会强制它们更快？不会通过检查给定字符串的字符是否在指定范围内比使用正则表达式更快来强制它们吗？
正则表达式 – 为什么`stoutest`不是有效的正则表达式？

isthedelimiter,thenthematch-only-onceruleof?PATTERN?
正则表达式 – 替换..与.在R

我怎样才能替换..我尝试过类似的东西：但它并不像我希望的那样有效.尝试添加fixed=T.
正则表达式 – 如何在字符串中的特定位置添加字符？

我正在使用记事本,并希望使用正则表达式替换在字符串中的特定位置插入一个字符.例如,在每行的第6位插入一个逗号是什么意思？如果要在第六个字符后添加字符,请使用搜索和更换从技术上讲,这将用MatchGroup1替换每行的前6个字符,后跟逗号.

正则表达式入门(java,python版本)

目录

本文目标

正则表达式到底是什么

正则表达式可以用来做什么

基本语法

元字符

实例

参考链接：