SRE:Google运维解密 评论 101 views 从零构建开源智能系统 个人成长 Books SRE:Google运维解密 概览 介绍 google 生产环境:SRE视角 指导思想 拥抱风险 服务质量目标 减少琐事 分布式系统的监控 google的自动化系统的演进 发布工程 简单化 具体实践 基于时间序列数据进行有效报警 on-call轮值 有效的故障排查手段 紧急事件响应 紧急事故管理 事后总结:从失败中学习 跟踪故障 测试可靠性 SRE部门中的软件工程实践 前端服务器的负载均衡 数据中心内部的负载均衡系统 应对过载 处理连锁故障 管理关键状态:利用分布式共识来提高可靠性 分布式周期性任务系统 数据处理流水线 数据完整性:读写一致 可靠地进行产品的大规模发布 管理 迅速培养SRE加入on-call 处理中断性任务 通过潜入SRE 的方式帮助团队从运维过载中恢复 SRE与其他团队的沟通与协作 SRE参与模式的演进历程 结束语 其他行业的实践经验 结语