pcre库之ovector[OVECCOUNT]数组
作者:孤独草原狼
可能对于初学者pcre库的使用中voector[OVECCOUNT]数组不是很理解,在此结合程序说明一下(读者可以自己调试示例代码理解):
首先voector[OVECCOUNT]数组是用来存放正则表达式的捕获组匹配到的开始字符串位置和结束字符串的位置,是一个存放数字的整型数组。什么是捕获组呢,学过正则表达式的应该知道,就是正则表达式中的 (),一个括号一个捕获组,捕获组按从左到右给标号,第一个括号为1,第二个括号为2,依次类推。而编号为0的则表示整个正则表达式。捕获组可以这样表示$0,$1,$2。。分别表示整个表达式,第一个捕获组,第二个捕获组。。。意:voector[OVECCOUNT]数组中相邻两元素分别存放捕获组所捕获的开始位置和结束位置,估计说了这么多还是迷迷糊糊的,
请看下图和示例代码说明:
示例代码模块:
define PCRE_STATIC // 静态库编译选项
#include "pcre.h"
#include <stdio.h>
#include <string.h>
#define OVECCOUNT 30 /* should be a multiple of 3 */
#define EBUFLEN 128
#define BUFLEN 1024
int main()
{
pcre *re;
const char *error;
int erroffset;
int ovector[OVECCOUNT];
int rc,i;
char src [] = "111 <title>Hello World</title> 222"; // 要被用来匹配的字符串
char pattern [] = "<title>(.*)</(tit)le>"; // 将要被编译的字符串形式的正则表达式
printf("String : %s\n",src);
printf("Pattern: \"%s\"\n",pattern);
re = pcre_compile(pattern,// pattern,输入参数,将要被编译的字符串形式的正则表达式
0,// options,输入参数,用来指定编译时的一些选项
&error,// errptr,输出参数,用来输出错误信息
&erroffset,// erroffset,输出参数,pattern中出错位置的偏移量
NULL); // tableptr,输入参数,用来指定字符表,一般情况用NULL
// 返回值:被编译好的正则表达式的pcre内部表示结构
if (re == NULL) { //如果编译失败,返回错误信息
printf("PCRE compilation Failed at offset %d: %s\n",erroffset,error);
return 1;
}
rc = pcre_exec(re,// code,输入参数,用pcre_compile编译好的正则表达结构的指针
NULL,// extra,输入参数,用来向pcre_exec传一些额外的数据信息的结构的指针
src,// subject,输入参数,要被用来匹配的字符串
strlen(src),// length,输入参数, 要被用来匹配的字符串的指针
0,// startoffset,输入参数,用来指定subject从什么位置开始被匹配的偏移量
0,输入参数, 用来指定匹配过程中的一些选项
ovector,// ovector,输出参数,用来返回匹配位置偏移量的数组
OVECCOUNT); // ovecsize,输入参数, 用来返回匹配位置偏移量的数组的最大大小
// 返回值:匹配成功返回非负数,没有匹配返回负数
if (rc < 0) { //如果没有匹配,返回错误信息
if (rc == PCRE_ERROR_NOMATCH) printf("Sorry,no match ...\n");
else printf("Matching error %d\n",rc);
free(re);
return 1;
}
printf("\nOK,has matched ...\n\n"); //没有出错,已经匹配
for (i = 0; i < rc; i++) { //分别取出捕获分组 $0整个正则公式 $1第一个()
char *substring_start = src + ovector[2*i]; //由于相邻两个数组元素分别表示捕获组
//匹配到的开始和结束的位置,所以ovector[2*i];
//就表示每个捕获组开始的位置。
int substring_length = ovector[2*i+1] - ovector[2*i]; //相邻两个元素的差值就是捕获组
//捕获到的字符串的长度
printf("$%2d: %.*s\n",i,substring_length,substring_start);
}
free(re); // 编译正则表达式re 释放内存
system("pause");
return 0;
}