- Latency
- Errors
- Traffic
- Satoration
Site Reliability Engineering(SRE)使用一组关键性能指标,被称为“Golden Signals”(黄金信号),用于监控和评估系统的健康状况和性能。这些信号帮助SRE团队主动检测、调查和解决生产环境中的问题。主要的四个Golden Signals如下:
- 延迟(Latency):
- 定义: 请求从接收到处理完成并返回响应的时间。
-
重要性: 延迟对用户体验至关重要。监控延迟有助于确保服务在可接受的时间内响应,避免延迟可能对用户造成的负面影响。
-
错误率(Error Rate):
- 定义: 与总请求数相比,导致错误或失败的请求的百分比。
-
重要性: 高错误率表明系统存在问题。监控错误率有助于识别和解决可能影响服务可靠性和功能性的问题。
-
流量(Traffic):
- 定义: 单位时间内进入的请求或事务的数量。
-
重要性: 监控流量可以提供对系统需求的见解。流量的突然增加或减少可能需要调整基础设施容量,或者反映用户行为的变化。
-
饱和度(Saturation):
- 定义: 系统资源被利用的程度,通常以容量的百分比表示。
- 重要性: 饱和度有助于识别潜在的瓶颈或资源限制。监控饱和度对于了解系统距离容量极限有多近是至关重要的,以便进行主动扩展。
这些Golden Signals是由Google的SRE团队引入的,作为一种实用且有效的方法,侧重于系统性能的关键方面。SRE团队使用这些信号创建服务水平指标(SLIs)和服务水平目标(SLOs),帮助定义和衡量服务的可靠性目标。通过基于这些Golden Signals进行监控和警报,SRE团队可以保持可靠且性能卓越的生产环境。