监视多种服务的性能和运行状况

2024-05-03 • 问答

这是我们的要求。

测量接近实时的平均网页延迟（托管在多个AWS ecs实例上）我们希望我们的服务能够   投放网页，例如..不到一秒钟

  除了http 200以外的

错误状态没有增加，我们想知道是否有问题。



诸如Elasticsearch之类的单独服务没有关闭



我们正在记录哨兵或elasticsearch中的一些严重错误（例如购买失败），并想知道它是否不会激增



最好有一个监视ui，并在满足某些条件时发出警报。

我不知道我们是否需要自己构建服务，我希望我们可以使用一些现成的服务。

我们应该在哪里收集数据？
我一直在看

elasticsearch，基巴纳语（缺少警报）
statsd（似乎我们需要单独的前端才能进行可视化）
netdata（看起来更像是系统监视工具，而不是数据聚合工具）
munin，nagios（不确定我们是否需要这些东西）

DataDog似乎是您的理想解决方案。您可以使用它来监视Elasticsearch，并且它具有APM产品，您可以将其集成到应用中以监视其性能。如果您使用Honeybadger监视应用程序，则也可以将有关这些错误的指标发送到DataDog。

Zabbix可以很好地处理其中的大多数问题。

使用“网络场景” ，可以通过"web.test.in"，"web.test.time" ...
"web.test.rspcode"还将向您显示HTTP响应代码，然后在需要时触发警报（例如：200、400、401、404、500、503 ...）
您可以使用official template并通过额外的zabbix_agentd设置轻松监控弹性搜索
可能需要其他专用服务：哨兵，EFK堆栈，elastalert来存档目标
Zabbix具有自己的集中式UI（具有代理支持）和任何类型的警报（显示在仪表板，电子邮件，Slack，SMS，PagerDuty ...上）

监视多种服务的性能和运行状况

anlijinhuawei 回答：监视多种服务的性能和运行状况

大家都在问