linux – ECC chipkill错误:哪个DIMM?

前端之家收集整理的这篇文章主要介绍了linux – ECC chipkill错误:哪个DIMM?前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。
我们经常让服务器中的DIMM因syslog中的以下错误而变坏:
  1. May 7 09:15:31 nolcgi303 kernel: EDAC k8 MC0: general bus error: participating processor(local node response),time-out(no timeout) memory transaction type(generic read),mem or i/o(mem access),cache level(generic)
  2. May 7 09:15:31 nolcgi303 kernel: MC0: CE page 0xa0,offset 0x40,grain 8,syndrome 0xb50d,row 2,channel 0,label "": k8_edac
  3. May 7 09:15:31 nolcgi303 kernel: MC0: CE - no information available: k8_edac Error Overflow set
  4. May 7 09:15:31 nolcgi303 kernel: EDAC k8 MC0: extended error code: ECC chipkill x4 error

我们可以使用HP SmartStart CD来确定哪个DIMM有错误,但这需要使服务器停止生产.是否有一种巧妙的方法可以解决服务器运行时哪个DIMM出现故障?我们所有的服务器都是运行RHEL 5的HP硬件.

解决方法

除了使用EDAC代码之外,您还可以使用仅CLI的HP实用程序在机器联机时确定这一点. cli版本比基于Web的版本更轻量级,并且不需要您打开端口或让守护程序不断运行.

hpasmcli将为您提供故障模块的盒式磁带和模块.比分析EDAC快一点.

例:

  1. hpasmcli -s "show dimm"
  2.  
  3. DIMM Configuration
  4. ------------------
  5. Cartridge #: 0
  6. Module #: 1
  7. Present: Yes
  8. Form Factor: 9h
  9. Memory Type: 13h
  10. Size: 1024 MB
  11. Speed: 667 MHz
  12. Status: Ok
  13.  
  14. Cartridge #: 0
  15. Module #: 2
  16. Present: Yes
  17. Form Factor: 9h
  18. Memory Type: 13h
  19. Size: 1024 MB
  20. Speed: 667 MHz
  21. Status: Ok
  22.  
  23. Cartridge #: 0
  24. Module #: 3
  25. Present: Yes
  26. Form Factor: 9h
  27. Memory Type: 13h
  28. Size: 1024 MB
  29. Speed: 667 MHz
  30. Status: Ok
  31.  
  32. Cartridge #: 0
  33. Module #: 4
  34. Present: Yes
  35. Form Factor: 9h
  36. Memory Type: 13h
  37. Size: 1024 MB
  38. Speed: 667 MHz
  39. Status: Ok

失败的模块的状态将更改.

猜你在找的Linux相关文章