上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
2.4.1 概述
监控的目的是防患于未然以及通过事后的复盘来完善监控运维体系,以保证生产环境的稳定。通过监控,我们能够及时了解生产环境的状态。一旦出现非预期的隐患,就可以及时预警,或者是以其他方式通知对应的运维人员,让运维人员可以及时处理和解决隐患,避免影响业务系统的正常使用,将一切问题的根源扼杀在摇篮中。在多数互联网公司中,运维和监控被称为SRE,再细分一些的运维领域,可能会将监控单独划分出来,称为NOC,它是业务正常运行中非常重要的一环。
即便国内互联网一线的厂商们,内部也有着林林总总、各式各样的监控系统和运维工具,有的关注业务数据,有的关注服务器的健康状态,有的则面向数据库和微服务特定指标。为了便于各位读者更好地学习并理解本章内容,这里的监控聚焦在云上Windows服务器系统本身的监控。