SRE:Google运维解密


概览

介绍

google 生产环境:SRE视角

指导思想

拥抱风险

服务质量目标

减少琐事

分布式系统的监控

google的自动化系统的演进

发布工程

简单化

具体实践

基于时间序列数据进行有效报警

on-call轮值

有效的故障排查手段

紧急事件响应

紧急事故管理

事后总结:从失败中学习

跟踪故障

测试可靠性

SRE部门中的软件工程实践

前端服务器的负载均衡

数据中心内部的负载均衡系统

应对过载

处理连锁故障

管理关键状态:利用分布式共识来提高可靠性

分布式周期性任务系统

数据处理流水线

数据完整性:读写一致

可靠地进行产品的大规模发布

管理

迅速培养SRE加入on-call

处理中断性任务

通过潜入SRE 的方式帮助团队从运维过载中恢复

SRE与其他团队的沟通与协作

SRE参与模式的演进历程

结束语

其他行业的实践经验

结语