我正在使用正则表达式在Python中完成一些PDF剪贴工作。
场景:我有一个标题为“ Recommendation:”,我需要捕获“ Recommendation:”标题旁边的文本。
例如:建议:请确保您正在使用推荐的SAP内核以及产品的最新SAP支持软件包堆栈。
有两种终止建议书的可能性:
-
在完成推荐文本后,出现了一种模式,其中包含数字,如10.1.4
RE:重新编译(r“推荐:(。*?)(?= \ n- \ n)”,flags = re.DOTALL)
-
完成推荐文本后,可以在页面结尾。
RE:重新编译(r“推荐:(。*?)(?= [\ n- \ n] $)”,flags = re.DOTALL)
我能够分别捕获这两种情况,但是在捕获两者的组合时遇到了问题。
如果有人帮助我解决这个问题,这将是有帮助的。