前言
在IT建设工作中,监控一直扮演着重要角色。我们能否在应用系统及其所依赖的各类基础设施发生异常时及时探测异常、迅速定位问题原因、快速解决异常,以及总结经验、避免再次发生类似问题,在很大程度上取决于监控系统的支持程度。可以说,在数据中心的建设过程中,监控贯穿了各个环节,从最上层的应用系统到底层的基础设施,都需要通过不间断的、近乎实时的监控检测措施来保障业务的连续性。监控系统的建设工作是各企业内部一项最基础,同时也是最重要的工作,尤其是在对业务连续性要求非常高的金融机构内,构建一套成熟完备的监控系统更是重中之重。
在业务系统结构不复杂、业务规模不大的情况下,监控系统的建设相对没有那么复杂,我们通过搭建一套主流的监控系统,就可以实现大部分的监控需求了。但是,随着IT技术的快速迭代和发展,云计算、容器、分布式架构等技术在企业内部的应用、落地及推广程度逐渐加深,以及相应配套基础设施的规模呈几何级数增加,构建一个能够第一时间发现问题、精准定位问题,甚至可以通过大数据分析、人工智能等手段进行异常预警及事后分析且避免同类问题再次发生的监控系统就并非易事了。这对监控系统的功能、监控信息的准确性和及时性、监控范围的覆盖程度,以及监控系统自身的高可用性等方面都提出了更高的要求,涉及从底层基础设施到顶层应用系统的各个领域的监控实施工作。我们几乎很难找到一套可以满足所有监控需求的监控系统,所以监控系统的建设工作通常包括把对各类监控细分领域实施精细化监控的监控系统或工具进行整合、定制开发及自研等工作。
本书试图以理论结合实践的方式,为读者介绍如何从0到1打造一个一体化企业级监控系统,全书共11章,第1章“监控系统规划及原理”详细介绍了监控运维管理的发展历程、监控体系总体规划、监控系统的分类、监控系统工作原理、监控系统运行模式分类,以及监控事件总线等内容;从第2章开始至第10章自底向上依次对计算机硬件设备、虚拟机、操作系统、数据库、中间件、Docker容器、Kubernetes、应用,以及日志等领域实施监控的技术原理、常用监控指标及实现方式等内容做了介绍。第11章“智能监控”作为全书总结,对监控系统下一个阶段的发展趋势,即智能监控涉及的相关技术原理及常用智能监控功能做了介绍。本书第1章由姜才康编著;第2章、第4章、第11章由何玮编著;第3章、第5章、第6章、第7章由邢世友编著;第8章、第9章由蒋德良编著;第10章由杜旭东编著;全书由姜才康和蒋德良统稿。
监控系统的成功建设离不开运维和研发工程师的互相配合及共同努力,所以本书对运维和研发工作具有同样重要的意义。运维工程师通过对本书的系统学习,可以对监控系统的基本原理、设计思想、实现方式等内容有全面理解及深入掌握,从而将这些内容运用到监控系统的建设或完善工作中。研发工程师通过对本书的系统学习,可以更好地了解监控系统对应用系统进行监控的工作原理及可能产生的影响,从而在系统研发过程中更全面地考虑与监控系统的整合方式,构建能更加稳定运行的业务系统。
本书的出版离不开中国人民银行科技司、中国外汇交易中心及中汇信息技术(上海)有限公司各位领导的指导和同事们的大力支持,离不开电子工业出版社徐蔷薇和朱雨萌编辑的认真态度和辛勤工作,编著者都是利用业余时间完成本书的编写工作的,其间更是离不开家人的体谅与支持,在此一并表示由衷的感谢!同时,特别感谢中国人民银行科技司李伟司长、跨境银行间支付清算有限责任公司许再越总裁、北京青云科技股份有限公司沈鸥副总裁为本书倾情作序。
最后,因监控技术的迭代和新技术的涌现速度非常快,受限于水平和经验,书中内容的编写难免有欠妥和不足之处,热忱欢迎读者批评指正。
姜才康
2021年8月于上海