我有些文件带有“ TITLE ...”,然后紧随其后的是“ JOURNAL ...”。特定行各不相同,每个文件不是固定的。我试图提取“ ... TITLE ...”和“ ... JOURNAL ...”之间存在的所有信息。到目前为止,我只能拉出包含“ TITLE”的行,但是对于某些文件,这会溅到下一行。
我推断必须使用a = line.find(“ TITLE”)和b = line.find(“ JOURNAL”) 然后在范围(a,b)中设置for i的for循环:它显示698-768之间字符串的所有数值,但仅显示数字而不是字符串。如何显示字符串?然后我该如何清理,使其不显示“ TITLE”,“ JOURNAL”以及这两个字符与我需要的文本之间的空格?谢谢!
这是显示“ TITLE”所在行的单行
<results>
{
for $depen in doc("../company/dependent.xml")//dependent
where $depen/dependent_name=*
return
<row>
<dependent name="{$depen/dependent_name}"/>
{
for $emp in doc("../company/employee.xml")//employee[ssn = $depen/essn ]
return
<employee>
<emp fname="{$emp/fname}" lname="{$emp/lname}"/>
{
for $man in doc("../company/employee.xml")//employee[ssn = $emp/superssn ]
return
<mgr fname="{$man/fname}" lname="{$man/lname}"/>
}
</employee>
}
</row>
}
</results>
这是当前块,在单独的行上以递增的顺序显示所有这些数字。
def extract_title():
f=open("GenBank1.gb","r")
line=f.readline()
while line:
line=f.readline()
if "TITLE" in line:
line.strip("TITLE ")
print(line)
f.close()
extract_title()
目前,我的698-768显示如下: 698 699 700 等等... 我想先让他们喜欢698699700, 然后将它们转换为字符串值 那么我想了解如何去除空白以及“ TITLE”和“ JOURNAL”值。谢谢!