前端之家收集整理的这篇文章主要介绍了
【python系列】使用正则表达式去除HTML字符串,
前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。
- 关键代码见标红部分
- # -*- coding: utf-8-*-
- import re
- ##过滤HTML中的标签
- #将HTML中标签等信息去掉
- #@param htmlstr HTML字符串.
- def filter_tags(htmlstr):
- #先过滤CDATA
- re_cdata=re.compile('//<!\[CDATA\[[^>]*//\]\]>',re.I) #匹配CDATA
- re_script=re.compile('<\s*script[^>]*>[^<]*<\s*/\s*script\s*>',re.I)#Script
- re_style=re.compile('<\s*style[^>]*>[^<]*<\s*/\s*style\s*>',89)">#style
- re_br=re.compile('<br\s*?/?>')#处理换行
- re_h=re.compile('</?\w+[^>]*>')#HTML标签
- re_comment=re.compile('<!--[^>]*-->')#HTML注释
- s=re_cdata.sub('',htmlstr)#去掉CDATA
- s=re_script.sub(#去掉SCRIPT
- s=re_style.sub(#去掉style
- s=re_br.sub('\n',s)#将br转换为换行
- s=re_h.sub(#去掉HTML 标签
- s=re_comment.sub(#去掉HTML注释
- #去掉多余的空行
- blank_line=re.compile('\n+')
- s=blank_line.sub('\n',s)
- s=replaceCharEntity(s)#替换实体
- return s
-
- ##替换常用HTML字符实体.
- #使用正常的字符替换HTML中特殊的字符实体.
- #你可以添加新的实体字符到CHAR_ENTITIES中,处理更多HTML字符实体.
- def replaceCharEntity(htmlstr):
- CHAR_ENTITIES={'nbsp':' ','160':'lt':'<',255)">'60':'gt':'>',255)">'62':'amp':'&',255)">'38':'quot':'"',255)">'34':r'&#?(?P<name>\w+);')
- sz=re_charEntity.search(htmlstr)
- while sz:
- entity=sz.group()#entity全称,如>
- key=sz.group('name')#去除&;后entity,如>为gt
- try:
- htmlstr=re_charEntity.sub(CHAR_ENTITIES[key],htmlstr,1)
- sz=re_charEntity.search(htmlstr)
- except KeyError:
- #以空串代替
- htmlstr=re_charEntity.sub(return htmlstr
-
- def repalce(s,re_exp,repl_string):
- return re_exp.sub(repl_string,s)
-
- if __name__=='__main__':
- s=file('Google.htm').read()
- news=filter_tags(s)
- print news