text-extraction

PythonRegex:如何在字符串中获取_entire_Regex的所有匹配项,其中包含不同的出现次数和多个正则表达式

我从pdf中提取了文本,我使用的是re.finditer()atm,但正如re.match()上的文档所说,如果“字符串开头的零个或多个字符与正则表达式模式匹配”,后者已经返回了一个匹配对象re.finditer()的行为也是如此。很明显,字符串的两个非常相似的部分的开头的一定数量被认为是同一编译正则表达式的出现或“匹配”就足够了——这不是我想要/需要的。为了正确地“解析”从pdf中提取的全文,我需要使用多个正则表达式,并且必须完全使用它们。