这是我们的要求。
- 除了http 200以外的
测量接近实时的平均网页延迟(托管在多个AWS ecs实例上)我们希望我们的服务能够 投放网页,例如..不到一秒钟
错误状态没有增加,我们想知道是否有问题。
诸如Elasticsearch之类的单独服务没有关闭
我们正在记录哨兵或elasticsearch中的一些严重错误(例如购买失败),并想知道它是否不会激增
最好有一个监视ui,并在满足某些条件时发出警报。
我不知道我们是否需要自己构建服务,我希望我们可以使用一些现成的服务。
我们应该在哪里收集数据?
我一直在看
- elasticsearch,基巴纳语(缺少警报)
- statsd(似乎我们需要单独的前端才能进行可视化)
- netdata(看起来更像是系统监视工具,而不是数据聚合工具)
- munin,nagios(不确定我们是否需要这些东西)