医院信息系统典型故障案例解析
上QQ阅读APP看书,第一时间看更新

案例8 应急演练误操作导致机房断电故障

【案例概述】

案例关键字:误操作 断电 SQL Server故障迁移
长时间负责机房管理的工作人员,一般都会有较强的“强迫症”,无论谁要对机房做什么事情,必须要求对方包括自己规范化、流程化地将工作做好、做细,并做好日志记录。小L在一次例行故障应急演练时,因网线、电源线杂乱,在整理线的过程中发生误操作,使PDU供电出现问题,导致一连串的问题出现,还好最终顺利解决,没有造成较大影响。

【案例还原】

一转眼又到了一年一度的医保路由故障应急演练的日子,按事先准备好的演练预案,各位同事各就各位,该院主要设备的参数如图1-8-1所示。
一切准备就绪,按计划进行模拟医保路由器故障,21:00准时关闭医保路由器并更换备用路由器。因为网络机柜中网线、交换机电源线杂乱、理线架安装位置不当,于是大伙开始整理网线、电源线、拆除理线架等。约5分钟后,小L收到运维系统监控平台短信报警信息“服务器汇聚交换机可用性异常,门诊收费、电子病历、超声、医保等服务器网络连接断开”,接着陆续接到门诊打来的电话反映门诊收费系统无法使用。
图1-8-1 系统架构图
小L通过ping命令检查服务器汇聚交换机时发现全部包超时,网络不通。接着到现场查看交换机状态时发现交换机电源指示灯不亮,再查看交换机连接的PDU电源时发现PDU的开关处于OFF状态。原来是刚才整理电源线时误关了PDU开关,导致整个网络机柜断电,此机柜内的汇聚交换机断电关机,网络断开。于是小L赶紧打开PDU电源开关,服务器汇聚交换机正常启动,随后服务器网络恢复正常。小L正得意自己又快速完美地解决了问题时,小W却发现门诊收费系统、电子病历系统、超声系统、药房显示屏等系统都出现了同一个问题,即客户端与服务器间的网络畅通,但客户端程序无法正常启动。于是,将目标锁定到服务器上查找问题。
小L通过堡垒机登录到门诊系统服务器时发现基于Windows群集的SQL Server服务脱机,虽网络已恢复正常,但主、备节点均无法自动联机,于是他手动将服务联机,门诊系统的业务恢复正常。接着用同样的方法检查电子病历系统SQL Server相关服务,现象与门诊系统服务器类似,小L驾轻就熟,同样手动将电子病历群集服务联机,但此次操作联机失败,SQL Server(MSSQLSERVER)、SQL Server Analysis Services、SQL Server代理(MSSQLSERVER)三个服务均无法启动。时间一分一秒地过去,问题还是没有解决,临床的报障电话响个不停,小L的压力越来越大,但是他反而更加冷静沉着,经验丰富的他想到了电子病历系统的SQL Server服务是用域账户启动的,如果修改启动账户密码后没有对SQL Server服务进行重新配置,SQL Server服务在没有重启的情况下仍然可以正常运行,但服务关闭之后就无法正常启动,问题很有可能就是如此。于是通过“服务”管理界面重新配置SQL Server服务的启动账户,再手动将SQL Server服务联机,SQL Server服务正常启动,电子病历业务恢复正常。
检查超声系统服务器时发现服务器与网络存储的连接丢失,导致超声系统无法获取图像信息,重启服务器后网络连接正常,超声系统恢复正常。
业务系统都恢复正常后,小L来到了药房查看显示屏,发现显示屏程序与门诊收费系统服务器网络断开,程序处于假死状态,网络恢复后系统无法自动连接,于是手动重启显示屏程序后候药信息恢复正常显示。

【案例总结】

1.应急演练一定要有严谨的预案及统一的指挥、协调管理机制,所有的演练必须严格按预案进行,不得额外进行不在预案中的任何操作,以防意外。
2.应急演练前必须对相关的设备做好检查,评估好演练的风险,做好相关系统数据备份,准备好相关的硬件,以防备在演练过程中造成的附带损伤。
3.对于网线、电源线等,每次布线结束后要规范整理,认真打标签,避免因线杂乱、没有标签或安置不当而导致误操作。
4.应组织专业的人员定期进行巡检和日常维护,对存在的隐患问题及时整改。
5.对域账号进行计划性或非计划性维护时,要按照规范做好维护方案、配置管理,同时要及时对相关的业务系统配置进行同步更新。
6.对所有服务器的网络配置及电源的接入要有合理规划,做到冗余配置,保障在某一路电源或某一台交换机出现故障时,也能保证服务器及网络可用。