上QQ阅读APP看书,第一时间看更新
案例73 T2000结束告警自动确认原理
故障现象
客户反馈现场T2000V2版本网管,有大量结束的告警会自动从当前告警列表中丢失。
组网情况
无。
原因分析
无。
故障定位及处理过程
1.查看告警转储文件,发现这些消失的告警。经过分析,当前告警数量比较多,造成大量结束告警被自动确认后又刚好被自动转储到文件中。告警自动确认的相关原理:在网管上所有当前告警(结束和未结束的)都存储在内存中的当前告警缓冲区内。当前告警缓冲区满时,将发生当前告警的绕接。也就是如果当前告警比较多时,可能会发生当前告警丢失的现象(主要是指未结束告警),这是无法避免的。而对于当前告警缓冲区内已经结束的告警处理过程如下:实际从ems进程启动开始,就会相应启动一个告警处理的任务进程,专门负责告警管理。它每隔10min左右(可能受到系统任务调度的影响,有一定时间误差)扫描判断是否要进行缓冲区的告警绕接。如果当前告警缓存区中告警数目超过门限,就会绕接告警,绕接的其中一步就是将当前告警缓存中已经结束告警逐条自动确认为历史告警。直到保持到门限的3/4(75%)以下。
2.该当前告警缓冲区的容量大小默认为3万条,由ems.cfg中FSCurDBLimit的参数来决定。如果遇到大量当前告警产生的时候,短时间突破3万条门限,会造成大量已经结束告警自动确认进入历史告警库,并且大量未结束告警被绕接丢失掉。另外因为是逐条自动确认,当告警条数过多时,自动确认的时间可能不完全一致。
3.查看告警转储文件,发现了这些消失的告警。
总结和建议
注意当前告警缓冲区大小可以根据情况调整。如果告警产生比较频繁,要注意当前告警绕接的发生。