正则表达式是做文本解析工作必不可少的技能。如Web服务器日志分析,网页前端开发等。很多高级文本编辑器都支持正则表达式的一个子集,熟练掌握正则表达式,经常能够使你的一些工作事半功倍。例如统计代码行数,只需一个正则就搞定。嵌套Html标签的匹配是正则表达式应用中一个比较难的话题,因为它涉及到的正则语法比较多,也比较难。因此也就更有研究的价值。

先确定我们要解决的问题——从一段Html文本中找出特定id的标签的innerHTML

我们可以这样想,先匹配最前面的起始标签,假设是div吧(<div),然后一旦遇到嵌套div,就“压入堆栈”,然后一遇到div结束标签了,就“弹出堆栈”。如果遇到结束标签的时候,堆栈里面已经没有东西了,那么匹配结束,此结束标签为正确的闭合标签


这里假设我们要匹配的文本是一段合法的Html文本

 <div id="myID">
		<div class="s-sub">
			<ul>
				<li class="s-hw"><a href="http://consumer.huawei.com/cn/" target="_blank">华为官网</a></li>
				<li class="s-honor"><a href="http://www.honor.cn/" target="_blank">华为荣耀</a></li>
				<li class="s-emui"><a href="http://emui.huawei.com/cn/" target="_blank">EMUI</a></li>
				<li class="s-appstore"><a href="http://appstore.huawei.com/" target="_blank">应用市场</a></li>
				<li class="s-cloud"><a href="http://cloud.huawei.com/cn" target="_blank">云服务</a></li>
				<li class="s-developer"><a href="http://developer.huawei.com/" target="_blank">开发者联盟</a></li>
				<li class="s-club"><a href="http://club.huawei.com" target="_blank">花粉俱乐部</a></li>
			</ul>
		</div>
<p>test text</p>
<div>
<p>test text</p>
</div>
</div>

匹配起始标签

起始标签特征很好提取,以尖括号打头,然后跟着一连串英文字母,然后一大串属性中(非尖括号字符)匹配id(不区分大小写)=myID。需要注意的是,myID可以被双引号或者单引号包裹,也可以什么都不加。正则如下:

<(?<HtmlTag>[\w]+)[^>]*\s[iI][dD]=(?<Quote>["']?)myID(?(Quote)\k<Quote>)[^>]*?(/>|>

上面的正则表达式需要做几点说明:

1. <尖括号在正则中算是一个特殊字符,在显式捕获分组中用它将分组名括起来。但是因为开头的尖括号在此上下文下并不会出现解析歧义,因此加不加转义符效果是一样的。

2. (?<GroupName>RegEx)格式定义一个命名分组,我们在上面定义了一个HtmlTag的标签分组,用来存放匹配到的Html标签名。Quote分组是用来给后面的匹配使用的。

3. (?(GroupName)Then|Else)是条件语句,表示当捕获到GroupName分组时执行Then匹配,否则执行Else匹配。上面的正则中,我们先尝试匹配footer字符串左边的引号,并将其存入LeftQuote分组中,然后在footer右侧进行条件解析,如果之前匹配到LeftQuote分组,那么右侧也应该批评LeftQuote分组。这样一来,我们就能精确匹配id的各种情况了。

匹配闭合标签

((?<nested><\k<HtmlTag>[^>]*>)|</\k<HtmlTag>>(?<-nested>)|.*?)*</\k<HtmlTag>>

在成功匹配到起始标签之后,后面的Html文本可以分为三种情况:

A. 匹配到嵌套div起始标签<div,这个时候,需要将其捕获到nested分组。

B. 匹配到嵌套div起始标签的闭合标签,这个时候,需要将之前的nested分组释放

C. 其他任意文本。注意,需要使用.*?方式关闭贪婪匹配,否则最后的闭合标签可能会过度匹配

使用(RegEx1|RegEx2|RegEx3)*这种方式,可以将几个条件以或的形式组合起来,然后再取若干次匹配结果,最终再匹配闭合标签。其中(?<-nested>)是表示释放之前捕获的nested分组。确切的语法是(?<N-M>)即使用N分组替换掉M分组,如果N分组没有指定或不存在,则释放M分组。


完整的正则表达式为:

<(?<HtmlTag>[\w]+)[^>]*\s[iI][dD]=(?<Quote>["']?)myID(?(Quote)\k<Quote>)[^>]*?(/>|>((?<nested><\k<HtmlTag>[^>]*>)|</\k<HtmlTag>>(?<-nested>)|.*?)*</\k<HtmlTag>>)



原文来源:http://www.imkevinyang.com/2010/07/javajs%e5%a6%82%e4%bd%95%e4%bd%bf%e7%94%a8%e6%ad%a3%e5%88%99%e8%a1%a8%e8%be%be%e5%bc%8f%e5%8c%b9%e9%85%8d%e5%b5%8c%e5%a5%97html%e6%a0%87%e7%ad%be.html





使用正则表达式匹配嵌套Html标签的更多相关文章

  1. HTML5数字输入仅接受整数的实现代码

    这篇文章主要介绍了HTML5数字输入仅接受整数的实现代码,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下

  2. xcode – 如何在LLDB断点条件下使用堆栈内容?

    问题:我有一种情况,我们在发布期间有媒体播放,并且objc_exception_throw()在此期间大约有5次点击,但总是被捕获,并且它在媒体播放器对象的南边.我厌倦了(a)必须手动连续n次,或者(b)在播放完成之前必须禁用断点.我尝试过的:>使断点忽略前五次命中(问题:它并不总是正好五次)>使用我的目标作为模块创建我自己的符号断点(问题:没有改变)我想做什么:想到的一个解决方案是在断点命中时评

  3. ios – 如何在Xcode堆栈跟踪中查找NSInternalInconsistencyException的来源

    我没有在此堆栈跟踪中的任何位置看到任何可识别的文件名,方法调用或行号.或者,如果不是简单地读取堆栈跟踪并且涉及其他技术,那么开发人员应该采取哪些适当的下一步来追踪此类错误的来源?

  4. ios – 非常规形状的NSTextContainer示例?

    嗨,我正在使用iOS7的新TextKitAPI,我正在尝试生成一个不规则形状的UITextView.到目前为止,我在视图控制器中:然后在我的子类NSTextContainer中,我想将一个mutablePath绘制为文本容器的形状,但不知道如何实现这一点.我有:对于如何使其工作有点困惑.我找不到具有不规则形状的NSTextContainer的任何示例.解决方法不需要构建TextKit堆栈的所有代码

  5. ios – UINavigationBar -pushNavigationItem在将新控制器推送到UINavigationController堆栈时从不调用

    解决方法我找到了原因:它调用–pushNavigationItem:项不调用–pushNavigationItem:animated!

  6. ios – 使用大写符号在字符串swift中获取URL的正则表达式

    我尝试在文本中获取URL.所以,在此之前,我使用了这样一个表达式:但是当用户输入带有大写符号的URL时(例如Http://Google.com,它与它不匹配)我遇到了问题.我试过了:但什么都没发生.解决方法您可以使用正则表达式中的i内联标志关闭区分大小写,有关可用正则表达式功能的详细信息,请参阅FoundationFrameworkReference.(?ismwx-ismwx)Flagsetti

  7. 阅读iOS Webkit崩溃堆栈跟踪

    b)有没有任何其他见解,任何人都可以看到我得到的堆栈跟踪建议?解决方法我最终根据上面描述的理论进行了代码更改.在做出这些改变之后,我没有看到崩溃再次发生.所以原始理论看起来是正确的.

  8. ios – UICollectionView神秘崩溃

    我有一个UICollectionView,我用从Internet下载的图像填充单元格.为此我使用SDWebImage.我的代码如下所示:我相信我已经正确地设置了它.但应用程序完全随机崩溃,有时会留下此堆栈跟踪:日志区域中没有其他消息.我尝试设置异常断点,但每次发生此崩溃时,都会显示此堆栈跟踪.有谁知道可能是什么问题?解决方法如果有人在寻找答案,我已经解决了问题,并回答了与同一问题有关的另一个问题.你可以找到它here.希望它有所帮助!

  9. ios – 如何在Xcode 7中使用对象库的Stack View

    我最近安装了Xcode7beta并找到了一些东西像对象一样的新对象库水平堆栈视图和垂直堆栈视图.Wheniputsomecontrolsinsideit,stackviewseemstoberesizableaccordingtothecontrolsize.Whenipresentmorecontrolsthestackseemstobeadjustautomaticallyasofthesta

  10. ios – 多个NavigationControllers之间的导航

    (这可以通过我们在常见的VC之间使用segue来实现,我是对的吗?)据我所知,NavigationController代表了一堆ViewControllers,我们可以在其中弹出并推送这些VC.那么现在我们将第一个NavigationController的VC的“位置”从第二个改为VC,接下来会发生什么?如果是这样,是否意味着第一个NavigationController的VC堆栈是否已从内存中删除?

随机推荐

  1. 法国电话号码的正则表达式

    我正在尝试实施一个正则表达式,允许我检查一个号码是否是一个有效的法国电话号码.一定是这样的:要么:这是我实施的但是错了……

  2. 正则表达式 – perl分裂奇怪的行为

    PSperl是5.18.0问题是量词*允许零空间,你必须使用,这意味着1或更多.请注意,F和O之间的空间正好为零.

  3. 正则表达式 – 正则表达式大于和小于

    我想匹配以下任何一个字符:或=或=.这个似乎不起作用:[/]试试这个:它匹配可选地后跟=,或者只是=自身.

  4. 如何使用正则表达式用空格替换字符之间的短划线

    我想用正则表达式替换出现在带空格的字母之间的短划线.例如,用abcd替换ab-cd以下匹配字符–字符序列,但也替换字符[即ab-cd导致d,而不是abcd,因为我希望]我如何适应以上只能取代–部分?

  5. 正则表达式 – /bb | [^ b] {2} /它是如何工作的?

    有人可以解释一下吗?我在t-shirt上看到了这个:它似乎在说:“成为或不成为”怎么样?我好像没找到’e’?

  6. 正则表达式 – 在Scala中验证电子邮件一行

    在我的代码中添加简单的电子邮件验证,我创建了以下函数:这将传递像bob@testmymail.com这样的电子邮件和bobtestmymail.com之类的失败邮件,但是带有空格字符的邮件会漏掉,就像bob@testmymail也会返回true.我可能在这里很傻……当我测试你的正则表达式并且它正在捕捉简单的电子邮件时,我检查了你的代码并看到你正在使用findFirstIn.我相信这是你的问题.findFirstIn将跳转所有空格,直到它匹配字符串中任何位置的某个序列.我相信在你的情况下,最好使用unapp

  7. 正则表达式对小字符串的暴力

    在测试小字符串时,使用正则表达式会带来性能上的好处,还是会强制它们更快?不会通过检查给定字符串的字符是否在指定范围内比使用正则表达式更快来强制它们吗?

  8. 正则表达式 – 为什么`stoutest`不是有效的正则表达式?

    isthedelimiter,thenthematch-only-onceruleof?PATTERN?

  9. 正则表达式 – 替换..与.在R

    我怎样才能替换..我尝试过类似的东西:但它并不像我希望的那样有效.尝试添加fixed=T.

  10. 正则表达式 – 如何在字符串中的特定位置添加字符?

    我正在使用记事本,并希望使用正则表达式替换在字符串中的特定位置插入一个字符.例如,在每行的第6位插入一个逗号是什么意思?如果要在第六个字符后添加字符,请使用搜索和更换从技术上讲,这将用MatchGroup1替换每行的前6个字符,后跟逗号.

返回
顶部