我需要帮助从脚本结果中解析出HTML
标签。我想将结果放在一个对象中以转换为json。当我打印对象时,除了我不能仅提取没有html标签的文本之外,其他所有东西都可以正常工作。我一直在该站点上搜索答案,并尝试了各种方法来删除标签,但是我不确定自己在做什么错。感谢您的帮助。
根据我在这里阅读的一些内容,我尝试打印teamObject.text,但这不起作用。
def make_soup(url):
page = requests.get(url)
soup = BeautifulSoup(page.content,'html.parser')
return soup
soup = make_soup("team.html")
for record in soup.findAll('tr'):
teamObject = {"name": record.find('a'),"description": record.find('p')}
print (teamObject)
我希望在没有html标记的对象形式下看到结果。
每个评论的更新:
我目前看到的只是打印上面的代码的结果是:
{'name': <a href="/team/001"> Team 1 </a>,'description': <p><a href="/team/001">Team 1</a> is a team does cool things.</p>}
更新代码以包含.text:
def make_soup(url):
page = requests.get(url)
soup = BeautifulSoup(page.content,'html.parser')
return soup
soup = make_soup("team.html")
for record in soup.findAll('tr'):
teamObject = {
"name": record.find('a').text,"description": record.find('p').text
}
print (teamObject)
我得到这个结果:
"name": record.find('a').text,AttributeError: 'NoneType' object has no attribute 'text'
我希望只看到没有html标签的文本。