监视多种服务的性能和运行状况

这是我们的要求。

  
      
  1. 测量接近实时的平均网页延迟(托管在多个AWS ecs实例上)我们希望我们的服务能够   投放网页,例如..不到一秒钟

  2.   除了http 200以外的
  3. 错误状态没有增加,我们想知道是否有问题。

  4.   
  5. 诸如Elasticsearch之类的单独服务没有关闭

  6.   
  7. 我们正在记录哨兵或elasticsearch中的一些严重错误(例如购买失败),并想知道它是否不会激增

  8.   
  9. 最好有一个监视ui,并在满足某些条件时发出警报。

  10.   

我不知道我们是否需要自己构建服务,我希望我们可以使用一些现成的服务。

我们应该在哪里收集数据?
我一直在看

  • elasticsearch,基巴纳语(缺少警报)
  • statsd(似乎我们需要单独的前端才能进行可视化)
  • netdata(看起来更像是系统监视工具,而不是数据聚合工具)
  • munin,nagios(不确定我们是否需要这些东西)
anlijinhuawei 回答:监视多种服务的性能和运行状况

DataDog似乎是您的理想解决方案。您可以使用它来监视Elasticsearch,并且它具有APM产品,您可以将其集成到应用中以监视其性能。如果您使用Honeybadger监视应用程序,则也可以将有关这些错误的指标发送到DataDog。

,

Zabbix可以很好地处理其中的大多数问题。

  • 使用“网络场景” ,可以通过"web.test.in""web.test.time" ...
  • 来测量网页延迟
  • "web.test.rspcode"还将向您显示HTTP响应代码,然后在需要时触发警报(例如:200、400、401、404、500、503 ...)
  • 您可以使用official template并通过额外的zabbix_agentd设置轻松监控弹性搜索
  • 可能需要其他专用服务:哨兵,EFK堆栈,elastalert来存档目标
  • Zabbix具有自己的集中式UI(具有代理支持)和任何类型的警报(显示在仪表板,电子邮件,Slack,SMS,PagerDuty ...上)
本文链接:https://www.f2er.com/3132899.html

大家都在问