SRE-Golden signals-黄金指标


  • Latency
  • Errors
  • Traffic
  • Satoration

Site Reliability Engineering(SRE)使用一组关键性能指标,被称为“Golden Signals”(黄金信号),用于监控和评估系统的健康状况和性能。这些信号帮助SRE团队主动检测、调查和解决生产环境中的问题。主要的四个Golden Signals如下:

  1. 延迟(Latency):
  2. 定义: 请求从接收到处理完成并返回响应的时间。
  3. 重要性: 延迟对用户体验至关重要。监控延迟有助于确保服务在可接受的时间内响应,避免延迟可能对用户造成的负面影响。

  4. 错误率(Error Rate):

  5. 定义: 与总请求数相比,导致错误或失败的请求的百分比。
  6. 重要性: 高错误率表明系统存在问题。监控错误率有助于识别和解决可能影响服务可靠性和功能性的问题。

  7. 流量(Traffic):

  8. 定义: 单位时间内进入的请求或事务的数量。
  9. 重要性: 监控流量可以提供对系统需求的见解。流量的突然增加或减少可能需要调整基础设施容量,或者反映用户行为的变化。

  10. 饱和度(Saturation):

  11. 定义: 系统资源被利用的程度,通常以容量的百分比表示。
  12. 重要性: 饱和度有助于识别潜在的瓶颈或资源限制。监控饱和度对于了解系统距离容量极限有多近是至关重要的,以便进行主动扩展。

这些Golden Signals是由Google的SRE团队引入的,作为一种实用且有效的方法,侧重于系统性能的关键方面。SRE团队使用这些信号创建服务水平指标(SLIs)和服务水平目标(SLOs),帮助定义和衡量服务的可靠性目标。通过基于这些Golden Signals进行监控和警报,SRE团队可以保持可靠且性能卓越的生产环境。