云服务器运维之Windows篇
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.3.2 Windows自助诊断的范围

对Windows实例的诊断内容大致可分为以下几类。

1.系统基线配置

该诊断的目标是保证系统基础信息正确,能够在阿里云ECS上正常运行。诊断内容包括:

(1)系统版本。目前Windows Server 2008及之前的版本,微软公司已不再支持,因此强烈建议用户升级到最新版本,以获得稳定性和安全性的保障。

(2)补丁信息。对比系统已安装的补丁和已发布的高危漏洞补丁,提醒客户及时修复高危漏洞。

(3)驱动信息。版本过老的VirtIO驱动在新硬件上有可能存在无法启动、运行缓慢等问题,而新版的VirtIO/NVMe驱动不仅兼容更新的机型,同时有更好的稳定性,因此建议用户注意驱动的更新。

(4)激活信息。检索Windows是否已激活,同时诊断激活方式和KMS服务的可达性。

(5)coredump配置。合适的coredump配置可以在实例出现蓝屏等问题时生成内存转储文件,利用该文件可以方便地确定实例发生崩溃的原因,从而有针对性地优化问题,避免再次发生系统崩溃,导致业务中断。

2.系统基础使用状况

该诊断采集系统内当前时间基本资源的使用状态,包括:

(1)CPU状态、使用率。

(2)内存容量、使用率。

(3)磁盘信息、使用率。

(4)高资源占用的进程信息。

当以上所采集的资源使用超过基线定义时,系统会给出不同级别的告警,例如可定义内存占用超过80%为Warning,超过90%为Critical。

3.网络连通性诊断

对于云计算而言,网络是基础且复杂的底层依赖之一。Windows GuestOS内部的各类配置可能导致用户无法远程登录到实例,或者实际业务无法顺畅运行。这些设置包括:

• 网卡配置。

• IP地址配置。

• 防火墙配置。

• 网络代理配置。

• 重要端口配置。

4.历史问题发现

由于诊断具有时间性,大多数诊断项的目的是发现系统中当前配置错误、负载较高的问题。但是通过采集系统中的日志和记录文件,诊断结果还可以包括曾经发生的风险,提示用户或告警。

1)系统崩溃发现

通过收集系统崩溃时自动产生的内存转储dump文件,对比文件信息和当前系统信息,可以知晓系统在何时发生过崩溃,从而发出告警。

2)日志错误分析

通过收集系统日志,并添加特征关键字,可以匹配并发现系统发生过的错误,如服务启动失败、用户违规登录等。