使用正则表达式删除HTML标签。

前端之家收集整理的这篇文章主要介绍了使用正则表达式删除HTML标签。前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。


  1. import java.util.regex.Matcher;
  2. import java.util.regex.Pattern;
  3.  
  4. public class HTMLSpirit{
  5. public static String delHTMLTag(String htmlStr){
  6. String regEx_script="<script[^>]*?>[\\s\\S]*?<\\/script>"; //定义script的正则表达式
  7. String regEx_style="<style[^>]*?>[\\s\\S]*?<\\/style>"; //定义style的正则表达式
  8. String regEx_html="<[^>]+>"; //定义HTML标签的正则表达式
  9. Pattern p_script=Pattern.compile(regEx_script,Pattern.CASE_INSENSITIVE);
  10. Matcher m_script=p_script.matcher(htmlStr);
  11. htmlStr=m_script.replaceAll(""); //过滤script标签
  12. Pattern p_style=Pattern.compile(regEx_style,Pattern.CASE_INSENSITIVE);
  13. Matcher m_style=p_style.matcher(htmlStr);
  14. htmlStr=m_style.replaceAll(""); //过滤style标签
  15. Pattern p_html=Pattern.compile(regEx_html,Pattern.CASE_INSENSITIVE);
  16. Matcher m_html=p_html.matcher(htmlStr);
  17. htmlStr=m_html.replaceAll(""); //过滤html标签
  18.  
  19. return htmlStr.trim(); //返回文本字符串
  20. }
  21. }
  22.  
  23.  
  24. Java中去掉网页HTML标记方法
  25. Java里面去掉网页里的HTML标记方法
  26.  
  27. /**
  28. * 去掉字符串里面的HTML代码。<br>
  29. * 要求数据要规范,比如大于小于号要配套,否则会被集体误杀。
  30. *
  31. * @param content
  32. * 内容
  33. * @return 去掉后的内容
  34. */
  35. public static String stripHtml(String content) {
  36. // <p>段落替换为换行
  37. content = content.replaceAll("<p .*?>","\r\n");
  38. // <br><br/>替换为换行
  39. content = content.replaceAll("<br\\s*/?>","\r\n");
  40. // 去掉其它的<>之间的东西
  41. content = content.replaceAll("\\<.*?>","");
  42. // 还原HTML
  43. // content = HTMLDecoder.decode(content);
  44. return content;
  45. }

猜你在找的正则表达式相关文章