java – 如何将HTML转换为文本保持换行符

前端之家收集整理的这篇文章主要介绍了java – 如何将HTML转换为文本保持换行符前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。
如何将 HTML转换为文本保持换行符(由br,p,div等元素生成)可能使用 NekoHTML或任何足够好的HTML解析器

例:
你好&LT峰; br />世界
至:

  1. Hello\n
  2. World

解决方法

这是我通过使用Jsoup迭代节点来输出文本(包括换行符)的函数.
  1. public static String htmlToText(InputStream html) throws IOException {
  2. Document document = Jsoup.parse(html,null,"");
  3. Element body = document.body();
  4.  
  5. return buildStringFromNode(body).toString();
  6. }
  7.  
  8. private static StringBuffer buildStringFromNode(Node node) {
  9. StringBuffer buffer = new StringBuffer();
  10.  
  11. if (node instanceof TextNode) {
  12. TextNode textNode = (TextNode) node;
  13. buffer.append(textNode.text().trim());
  14. }
  15.  
  16. for (Node childNode : node.childNodes()) {
  17. buffer.append(buildStringFromNode(childNode));
  18. }
  19.  
  20. if (node instanceof Element) {
  21. Element element = (Element) node;
  22. String tagName = element.tagName();
  23. if ("p".equals(tagName) || "br".equals(tagName)) {
  24. buffer.append("\n");
  25. }
  26. }
  27.  
  28. return buffer;
  29. }

猜你在找的Java相关文章