避免作者姓名分裂Python

我正在阅读PDF文件,并在定界符('')的基础上拆分了全文,但该PDF也包含这样的作者姓名;

  

类似于Valenzuela等人的工作。 [1]和Zhu等。 [2],我们使用从引文到被引论文的引文,每节的引文和作者重叠等功能。

我的代码将这一行分成3行

  • 类似于Valenzuela等人的工作
  • [1]和Zhu等
  • [2],我们使用从引文到引用论文的引文等功能, 每节的引文和作者重叠

这是我读取pdf文本并将其拆分的代码;

from tika import parser
import re

rege x = re.compile(r'\[\d]')

objFile = parser.from_file('read.pdf')
text = objFile['content']
lstString = text.strip()
lstString = lstString.split(".")

有人可以帮助我如何避免作者姓名分裂?

wuxiuhao 回答:避免作者姓名分裂Python

暂时没有好的解决方案,如果你有好的解决方案,请发邮件至:iooj@foxmail.com
本文链接:https://www.f2er.com/2956798.html

大家都在问