上QQ阅读APP看书,第一时间看更新
案例9 温度过高导致服务器故障
【案例概述】
案例关键字:温度过高 PACS故障 服务器面板报警
高温是机房设备的天敌,一般来说机房的温度应在20~25℃,机房温度是保障机房设备正常运转和“延年益寿”的必要条件之一。对于认真负责的机房管理员来讲,对机房温度的关注往往等同于甚至超过对自己体温的关注。小L曾遇到因机房温度过高,导致PACS影像服务器出现过热自我保护停止对外服务的情况,还好他通过数据库性能及综合其他情况冷静分析,最终在早高峰前解决了问题。
【案例还原】
小L所任职的医院于2013年年底进行系统全面升级,上线了厂家A的信息系统,该系统包含了PACS、LIS、EMR等模块。随着医院信息化的不断建设与扩展,机房设备也日渐增多,目前服务器XX台、存储XX台、核心交换机X台,这给小L带来了不小的困扰和压力。医院网络拓扑图如图1-9-1和图1-9-2所示。
图1-9-1 网络拓扑图
图1-9-2 网络拓扑图
话说某日小W值班,当天凌晨,医院信息系统日常维护微信群里,有放射科护士截图反映影像工作站不能正常使用,由于时间在深夜且该名护士没有电话报故障,因此小W并未及时回复、跟进。到了早上上班前,陆续接到有临床医生反映不能正常读取PACS图像,紧接着两家分院也打来电话反映无法进入PACS系统,小W瞬间意识到这是一个全院性的故障,遂马上通知小L到现场处理故障,并将情况汇报给领导。
不到十分钟,小L赶到机房,人还没有进入机房,透过墙壁就已经听到机房内传来阵阵非常大的轰鸣声,小L已经知道大事不妙。进入机房,一股热浪迎面而来,机房空调明显已经停止工作,机房温度异常高,服务器前面板全亮起报警灯,所有的服务器风扇以最大功率运转,发出巨大的声响。小L仔细检查后发现机房内UPS供电正常、市电正常、消防正常、核心交换机正常、存储器指示灯正常。因医院的经费问题,机房里使用的空调为家用的柜式空调,小L赶紧开启空调,空调能够正常开机,空调主机显示当前温度为43℃,远远超过了普通服务器运行的正常环境要求。小L一方面向领导汇报情况,另一方面着手查找PACS的故障原因。
考虑到故障出现在凌晨,必须迅速有效解决,领导请示分管院长后,启动应急预案,影像科室启用DR、CT设备的本地服务应用程序,手工出具检查报告。同时在医院内网、职工微信群对全体成员发了一则公告,PACS信息系统正在恢复中,请耐心等待,请大家注意做好患者的解释工作。
小L通过堡垒机登录PACS服务器,查找原因,排查故障。经排查,PACS数据库运行正常,仅PACS影像无法上传下载,PACS工作站报影像服务器无法访问,但经检测网络畅通。于是小L提取相关日志,查看服务器端口服务(图1-9-3),定位到今日凌晨2:42分开始出现端口故障。
图1-9-3服务器端口服务
根据故障时间,收集该时间段的AWR信息,对快照信息进行分析,报告显示ORACLE数据库正常。AWR生成的部分数据件如表1-9-1~表1-9-3所示。
表1-9-1 WORKLOAD REPOSITORY report for
表1-9-2
续表
Operating System Statistics-Detail
表1-9-3
事态非常严重,但小L考虑到如果现在切换到PACS的容灾系统,到这次故障处理完成后,容灾系统中的PACS影像需迁移到主系统中来,所以暂时不选择启用PACS容灾。先重启PACS主服务器,看看问题是否已经得到解决。如果重启后故障依旧,才按应急流程启用容灾系统,接管PACS影像服务。十分钟后PACS服务器重启完成,故障解除。事后小L分析,这次故障应该是由于深夜断电,空调停止运作,重新来电后空调没有自动启动,导致机房内温度过高,然而该时间段正是PACS影像服务器进行影像备份的时间,散热不充分,导致服务器电源自我保护,关闭端口,从而停止对外工作。
【案例总结】
1.在有条件的情况下,尽量采用N+1精密空调作为机房的制冷设备,如只能采用家用空调作为机房制冷设备,尽量请专业维修人员对空调进行改装,做到来电自动启动与多台联动轮转。
2.在有条件的情况下,布署机房动力环境监控软件可有效防止因电力、温度、漏水等因素造成的各种问题。
3.建立完善的应急预案机制。规范的应急管理流程、上墙的应急电话与指引、定期开展应急演练,是面对重大突发事件时,能快速、有序、高效启动应急方案、保障医院业务正常运行和为排查故障争取时间的有效途径。
4.建立完善的容灾系统,明确容灾系统切换的条件,定期做好演练。
5.建立科学合理的故障分析流程。软件、硬件、网络、服务等都可能会引起信息系统的故障,因此有一套思路清晰、可操作性强的故障分析流程是非常有必要的。