正则表达式(二)

前端之家收集整理的这篇文章主要介绍了正则表达式(二)前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。

上次有个朋友来问了一个关于SEO方面的问题,把Html文档中的所有图片的alt属性值替换成指定的值。首先我们就想到用正则表达式,目标任务:只替换img标签的alt属性值。


alt属性可能不只有img有,所以限定只替换img的alt属性。输入的话,一个html文档差不多有上万行代码。所以用简单粗暴的查找替换是可耻的。正则才是比较优雅的解决之道。


现在我们来分析一下我们要替换的字符串的特征。

1、以“<img"开头;

2、带有alt属性

3、img标签到alt属性之间存在未知的字符。

嗯,我们先解决第一步,找出img标签,写出如下:/<img[^>]*>/g

接下来这就是找到有alt属性的,写出如下: /<img[^>]*alt=('|")(.*?)\1.*>/g

其实解决第二步并没有这么简单,都是碰到了很多问题后面才写出来的,包括img到alt这一段之间的字符如何处理,以及alt到闭合标签"/>"之间的情况,而且有些代码img标签都没有写对正确的闭合标签,类似:<img src="***.jpg" >,所以写的正则表达式需要兼容这种错误标签的情形。

好了, 借用电竞三丑的一口头禅:可以,不跟你多BB。上代码


  1. static void Main(string[] args)
  2. {
  3. try
  4. {
  5. //调用
  6. ReplaceAlt(
  7. "<\\s*img([^>]*?)alt=('|\")(.*?)\\2",RegexOptions.IgnoreCase | RegexOptions.Multiline,"<img$1alt='d.pan'",@"E:\MyJob\VS2012_Space\TestConsole\atesthtml.txt",@"E:\MyJob\VS2012_Space\TestConsole\output.txt"
  8. );
  9. }
  10. catch( Exception ex )
  11. {
  12. }
  13. }
  14. /// <summary>
  15. /// 对输入文件执行替换的正则表达式
  16. /// </summary>
  17. /// <param name="RegStr">正则表达式</param>
  18. /// <param name="OptObj">正则对象选项枚举</param>
  19. /// <param name="ReplaceStr">替换的表达式</param>
  20. /// <param name="InputPath">输入文件路径</param>
  21. /// <param name="OutputPath">输出文件路径</param>
  22. /// <returns></returns>
  23. public static bool ReplaceAlt( string RegStr,RegexOptions OptObj,string ReplaceStr,string InputPath,string OutputPath )
  24. {
  25. //输入文档,这里是为了摸拟
  26. StreamReader SR = null;
  27. //输出文档
  28. StreamWriter SW = null;
  29. try
  30. {
  31. SR = new System.IO.StreamReader( InputPath );
  32. SW = new System.IO.StreamWriter( OutputPath );
  33. string InputSt = SR.ReadToEnd();
  34. //正则表达式
  35. Regex ImgReg = new Regex( RegStr,OptObj );
  36. //执行替换
  37. SW.WriteLine( ImgReg.Replace( InputSt,ReplaceStr ) );
  38. return true;
  39. }
  40. catch( Exception Ex )
  41. {
  42. //异常处理
  43. return false;
  44. }
  45. finally
  46. {
  47. //关闭文件
  48. if( null != SR )
  49. {
  50. SR.Close();
  51. SR = null;
  52. }
  53. if( null != SW )
  54. {
  55. SW.Close();
  56. SW = null;
  57. }
  58. }
  59. }


这里需要解释一下,代码中使用的正则表达式是:<\s*img([^>]*?)alt=('|")(.*?)\2,

替换的是:<img$1alt='这里是我想要替换的值'。

因为我们只需要替换alt的值,所以alt属性之后的那一段字符串,我们不需要理会,因为alt的值有可能使用了单引号或者是双引号,我们这里使用分组(第二个分组)从而解决这种问题,但是为什么前面的img到alt属性之前也使用了一个分组(第一个分组)?这个分组是在替换时使用的,$1表示了上面正则表达式第一个分组的值,这样就可以完全的复制过来,只需要替换alt的值就可以了。


测试结果:

输入文本:



输出结果:

猜你在找的正则表达式相关文章