Featured image of post 《企业 SRE 路线图》Google SRE 企业路线图白皮书

《企业 SRE 路线图》Google SRE 企业路线图白皮书

这本书由O'Reilly Media, Inc.在2022年出版,旨在帮助大型和复杂的组织(即企业)采用SRE。

Enterprise roadmap to SRE

这份文档是一本关于如何构建和维持一个站点可靠性工程(SRE)职能部门的书籍,名为《企业 SRE 路线图》(Enterprise Roadmap to SRE),由 James Brookbank 和 Steve McGhee 撰写。这本书由O’Reilly Media, Inc.在 2022 年出版,旨在帮助大型和复杂的组织(即企业)采用SRE。

下面是对本白皮书的简要概述。

前言 本书基于 Google 的之前出版的两本书籍《Site Reliability Engineering》和《The Site Reliability Workbook》,更深入地探讨了在大型组织中采用 SRE 的挑战。尽管 SRE 在过去几年中非常受欢迎,但许多企业在对 SRE 的热情和实际采用程度之间存在一定落差。作者认为这是一个重要的差距,需要弥合,因为:可靠性正日益成为企业的主要差异化因素。

第1章:企业 SRE 入门 介绍如何将 SRE 引入现有企业,建议首先评估现有环境,设定期望,并确保在评估 SRE 及其在组织内可能的工作方式时,朝着正确的方向迈出合理的步伐。

第2章:为什么要采用 SRE 提高可靠性? 讨论了为什么企业希望建立 SRE 团队或追求可靠性,以及他们希望实现的结果。作者指出,可靠性是产品最需要具备的特性,因为如果产品不可用了,那么它的任何特性都无法被利用到。

第3章:SRE 原则 在讨论具体实践之前,作者强调了原则的重要性。SRE 的原则包括 拥抱风险、服务质量目标(SLOs)、消除琐事(Toil)、分布式系统的监控等。

第4章:SRE 实践 一旦建立了 SRE 团队并对原则有了一定了解,就可以在组织中,开始实施一套 SRE 实践。团队的实践取决于成员能做什么、他们知道什么、他们拥有什么工具,以及他们对所有这些的舒适度。

第5章:积极培育成功 讨论了如何确保 SRE 在组织中成功的实施,包括采取小规模行动、建立和保持可持续的快乐团队、承认 SRE 是一个动态的角色,并随着时间的推移而发展。

第6章:不仅Google可以,企业亦可行 作者与三位不同行业的 SRE 领导者进行了交谈,他们在过去几年中以各种形式采用了 SRE ,分享了他们独特的故事,包括采用 SRE 的工作方式、他们可能会采取的不同方法,以及对 SRE 在他们的行业或组织中有效运作的洞察。

结论 作者希望本白皮书能帮助企业采用 SRE,并为每个人带来更可靠的技术体验。他们认为,通过明确定义 SRE 原则,将这些原则映射到实践和能力上,并优先发展和培养团队内部的这些能力,可以提高成功的机会。

关于作者 James Brookbank 是 Google 的云解决方案架构师,专注于为 Google 客户解决复杂的技术问题并提供专业的架构指导。Steve McGhee 是可靠性倡导者,帮助团队了解如何构建和运营世界级的可靠服务。在担任此职位之前,他曾任职 Google 的 SRE 超过10年,学习如何扩展全球系统。

Feature picture ❤️ Anete Lusina: https://www.pexels.com/photo/miniature-toy-car-on-top-of-monopoly-board-game-4792380/

署名-非商业性使用-禁止演绎 4.0 (CC BY-NC-ND 4.0)
comments powered by Disqus
本博客始于 2007 年
Built with Hugo
主题 StackJimmy 设计