我从pdf中提取了文本,我使用的是re.finditer()atm,但正如re.match()上的文档所说,如果“字符串开头的零个或多个字符与正则表达式模式匹配”,后者已经返回了一个匹配对象
re.finditer()
的行为也是如此。很明显,字符串的两个非常相似的部分的开头的一定数量被认为是同一编译正则表达式的出现或“匹配”就足够了——这不是我想要/需要的。
为了正确地“解析”从pdf中提取的全文,我需要使用多个正则表达式,并且必须完全使用它们。文本中预先未知大小的块类型是否完全满足唯一和特定的模式类型。
可悲的是,re.fullmatch
并不是一个替代方案,因为它希望与整个文本相匹配,但正如我所说,整个文本是由不同的rexexp模式组成的,部分情况下,多次出现只是在非常个别的层面上有所不同,例如“我购买东西的商店的名称”,但这仍然是各个regexp类型作为捕获组的特殊性,我需要进一步处理。
所以,问题是:如果我不知道每个可能的区块的开始和结束点,除了re.finditer()
还有什么可以使用的。为了找出每个类型块实例的边界在哪里,我希望根据多个正则表达式测试文本。
谢谢
我需要的是