课程简介
- 课程名称:‘SLO兵法’实施 SRE 的艺术
- 交付形式:线上或线下
- 时长:一天
欢迎踏上《SLO兵法》的探索之旅,一场引领你进入Site Reliability Engineering(SRE)精髓的深度学习之旅。这门课程将为你揭示系统稳定性的奥秘,为构建可靠、稳定、安全的服务打开全新的思维之门。
为何选择《SLO兵法》?
这不仅仅是一门课程,更是通往业务系统可靠性和可观测性的钥匙。对于所有希望在生产环境领域取得卓越业务战绩的你,《SLO兵法》将成为你事业道路上的重要里程碑。
课程对象
- DevOps工程师、SRE工程师
- 开发人员、应用架构师、服务交付经理
- 产品经理、项目经理、一线运维经理
- 敏捷教练,DevOps教练
课程目标
- 在组织中对SRE相关的核心理念基础、SLO实践流程达成高度一致和认同
- 详细了解在组织中为业务系统制定 SLO的详细实施的方式
- 彻底梳理SRE知识体系结构和最相关的重要技术实践
- 对SLO的实施过程和相关案例做针对性的研讨
课程大纲
第一模块: 对齐 SRE 中与 SLO 相关的术语概念
- SLI、SLO 概念解析:深入剖析 SLI(Service Level Indicator)和 SLO(Service Level Objective)的核心概念,确保学员对这两个关键术语有清晰准确的理解。
- SLO 与客户体验之间的关系:探讨 SLO 与客户体验之间的紧密联系,帮助学员建立起对服务质量目标与最终用户体验之间的敏感性。
第二模块: 业务系统为何需要 SLO ?
- 可靠性是应用系统的最重要特性:强调应用系统可靠性的至关重要地位,为学员树立系统稳定性管理的核心价值观。
- 深入理解 SLO 目标数值的设定原则:深入研究 SLO 目标数值的设定流程,引导学员理解背后的原则与方法,以确保系统的运行水平符合组织的期望。
第三模块: 使用错误预算
- 理解错误预算的概念和应用:解读错误预算的概念,着重探究其与 SLO 密切的逻辑关系,帮助学员理解如何通过错误预算合理管理业务系统风险。
- 错误预算与运维操作和监控告警的关系:深入研究如何运用错误预算进行运维操作的优化,以及如何构建有效的 SLO 监控告警规则,确保在业务系统发生关键异常时能够准确、迅速的响应。
第四模块: 实战演练 - 实施SLO案例实战
- 阅读学员手册:引导学员仔细阅读学员手册,以建立对实操案例的基本理解。
- 讲解小组工作流程:解释小组工作流程,确保学员能够理解并分组准确执行实际操作。
- 小组工作成果展示:学员展示他们在演练案例中所完成的成果,促进知识分享与团队协作。
第五模块:综合答疑&总结
- 回答学员提出的问题,深化对课程内容的理解,并进行全面总结,确保学员能够充分领会并应用所学的关键概念。
课程收获
通过参与本课程,您将在SRE领域获得深刻的收获:
- 深度理解SLI和SLO的核心概念: 您将建立清晰准确的理解,为准确设定和管理 SLO 提供坚实基础。
- 系统可靠性为大的核心价值观: 通过强调其重要性,帮助您确立 SRE 的核心价值观。使您能够全面了解如何优化系统稳定性,提升服务质量和安全性。
- 精通错误预算和运维操作的关系: 使您能够合理控制运维操作风险,并灵活正确运用错误预算。这将大幅提升您对系统健康状况的实时了解,降低潜在问题对业务的风险。
- 实战演练加深理解: 这种实战演练环节将帮助您将所学知识灵活应用于实际案例,提高课后在生产上推行的能力。