2.3.2 Windows自助诊断的范围
对Windows实例的诊断内容大致可分为以下几类。
1.系统基线配置
该诊断的目标是保证系统基础信息正确,能够在阿里云ECS上正常运行。诊断内容包括:
(1)系统版本。目前Windows Server 2008及之前的版本,微软公司已不再支持,因此强烈建议用户升级到最新版本,以获得稳定性和安全性的保障。
(2)补丁信息。对比系统已安装的补丁和已发布的高危漏洞补丁,提醒客户及时修复高危漏洞。
(3)驱动信息。版本过老的VirtIO驱动在新硬件上有可能存在无法启动、运行缓慢等问题,而新版的VirtIO/NVMe驱动不仅兼容更新的机型,同时有更好的稳定性,因此建议用户注意驱动的更新。
(4)激活信息。检索Windows是否已激活,同时诊断激活方式和KMS服务的可达性。
(5)coredump配置。合适的coredump配置可以在实例出现蓝屏等问题时生成内存转储文件,利用该文件可以方便地确定实例发生崩溃的原因,从而有针对性地优化问题,避免再次发生系统崩溃,导致业务中断。
2.系统基础使用状况
该诊断采集系统内当前时间基本资源的使用状态,包括:
(1)CPU状态、使用率。
(2)内存容量、使用率。
(3)磁盘信息、使用率。
(4)高资源占用的进程信息。
当以上所采集的资源使用超过基线定义时,系统会给出不同级别的告警,例如可定义内存占用超过80%为Warning,超过90%为Critical。
3.网络连通性诊断
对于云计算而言,网络是基础且复杂的底层依赖之一。Windows GuestOS内部的各类配置可能导致用户无法远程登录到实例,或者实际业务无法顺畅运行。这些设置包括:
• 网卡配置。
• IP地址配置。
• 防火墙配置。
• 网络代理配置。
• 重要端口配置。
4.历史问题发现
由于诊断具有时间性,大多数诊断项的目的是发现系统中当前配置错误、负载较高的问题。但是通过采集系统中的日志和记录文件,诊断结果还可以包括曾经发生的风险,提示用户或告警。
1)系统崩溃发现
通过收集系统崩溃时自动产生的内存转储dump文件,对比文件信息和当前系统信息,可以知晓系统在何时发生过崩溃,从而发出告警。
2)日志错误分析
通过收集系统日志,并添加特征关键字,可以匹配并发现系统发生过的错误,如服务启动失败、用户违规登录等。