SRE原理与实践:构建高可靠性互联网应用
上QQ阅读APP看书,第一时间看更新

Praise
赞誉

SRE作为保障信息系统平稳运行的重要措施,已逐步在大型互联网公司落地,众多国民级应用背后都有SRE的身影。本书作者拥有丰富的SRE实践经验,在该领域造诣颇深,也是中国信通院分布式系统稳定性实验室的高级技术专家。本书体系化地阐述了SRE的理念、体系和相关实践,深刻地呈现了SRE背后的工程方法论。

——魏凯 中国信通院云计算与大数据研究所副所长

软件可靠性工程是软件工程的重要组成部分,高质量的、可靠稳定的互联网服务离不开研发和运维人员的努力,更离不开完整的工程体系来保证。

观石把虎牙直播多年架构建设和SRE稳定性保障经验总结出来,对互联网平台稳定性相关的架构、运维等技术进行了系统分析。更难得的是,他把经验方法、分析的规律以及思考提炼出来,并参考可靠性工程理论形成了一个较为完整的体系。

书中包括许多业界及虎牙直播的案例,分享了SRE技术的原理、方法与大量实践,会令关注互联网技术发展的读者获益良多。

——范世青 虎牙科技技术副总裁

面对日渐复杂的各类民生与企业生存的应用软件,保证其业务稳定性的挑战越来越大。作者从可靠性以及可靠性工程能力建设角度入手,形成一个较完善的理论体系,对互联网乃至其他行业的运维体系建设都有较好的参考价值。作者强调可靠性架构与可观测性能力建设,强调修复与综合保障的能力建设,强调版本可靠性试验,指导传统运维向SRE转型,除了做好标准化的运维管理,将能力前延到产品设计、开发阶段,用软件工程能力实现从“消防员”向“架构师”的转型,通过运维技术将数字化带来的“不确定性”变成“确定性”。

——林华鼎 华为云SRE运维使能中心总监

起源于Google的SRE,今天已经成为业界事实上的稳定性标准,是一门非常强调实践的工程学科。但业界缺少能够非常全面且系统地介绍SRE落地实践的图书,不得不说是SRE社区的一大遗憾。

观石的这本书弥补了这个遗憾。本书围绕软件的全生命周期,非常详细地介绍了每个阶段稳定性和可靠性的落地实践,还特别增加了与当前稳定性发展的新趋势相结合的内容,如可观测性、反脆弱设计以及AIOps等,与时俱进,令人不忍释手,强烈推荐大型软件系统和网站的架构师、SRE、运维工程师以及各级技术管理者阅读。

——赵成SRE专栏作家/“聊聊SRE社区”发起人/《进化:运维技术变革与实践探索》作者

在“软件正在吞噬世界”的今天,越来越多的组织和企业探索出了新的商业模式,软件成为业务差异化的关键因素,往往可以带来颠覆性的创新和客户体验的改善。这种改变发生在各行各业。但是,每个软件产品是否成功都需要拉到足够长的时间维度来评价,软件的可靠性、客户感受到的持续优化能力,是决定软件生命周期的关键因素。

观石作为互联网软件SRE架构设计、开发管理和运营管理的实践者,能把自己的经验归纳总结,并开源出来分享给大家,非常难能可贵,我相信可以帮助到非常多的探索者少走弯路。本书深入浅出地从架构设计、可观测性能力构建、可靠性构建成本与软件运营成本的平衡、面向SRE的组织架构管理转型等多个方面给出了实践经验,可以为正在前行的你提前规避已知的风险。期待大家能在本书的基础上进一步实现创新,开发和构建更多优秀的、具有生命力的软件产品。

——陈展凌 亚马逊云科技应用现代化产品总监