我正在从事一个从 pdf 中提取文本的项目。
在提取文本并为每个标题和段落分配标签后,我想将它们的索引添加到新列表中以定位每篇文章。
这是示例列表:
['p','','标题','p',','标题']
- 遍历列表并创建一个列表列表,其中包含每个列表的文章索引
- 每篇文章都有一个标题和几个元素,如p、s 例如
article-index = [[article1],[article2],[article3]]
article-index = [[header,p,s,p],[header,s]]
- 我最初的方法是使用下面的函数获取每个标题的位置,以找到两个标题之间的范围。然后找出其他标签的位置,忽略空字符串。
def get_position(list_,tag):
#convert list to an array
array = np.array(list_)
#return an array of position of searched item
index = np.where(array == tag)[0]
return index
----
get_position(list,'header')
----
array([3,13,31])
输出:
articles_index = [[4,5,6,9,10],[13,14,15,16,18,19],[21]]
感谢您的意见。