案例23 OSN 3500PIU单板上报POWER_ABNORMAL告警处理
故障现象
1.某车间做电源测试计表,机房内一台OSN 3500切换到蓄电池供电后,27槽位上报POWER_ABNORMAL告警,用万用表测试各接线端子电压,未发现异常,倒换回正常供电系统,网管做告警清除后,告警仍继续上报;
2.用户彻底检查电池组性能,未发现问题,其他用电设备也未发现异常告警,更换PIU单板,告警消失;几天后用户告知,此告警又上报,并自行消失,一天反复10多次,告警时段覆盖天窗时段和白天上班时段,18:00至24:00基本没有上报;
3.POWER_ABNORMAL告警参数(16进制),0×010×000×010×000×ff,参数含义:
参数1:0×01表示-48VA路(默认为低槽位的PIU单板)电压;
参数2~3:对于PIU单板和GSCC单板,固定为0×000×01,无意义;
参数4~5:对于PIU单板和GSCC单板,参数4表示电源的工作状态,0×00表示欠压,0×01表示过压;参数5默认值为0×FF,无意义;
4.此故障告警参数表示-48VA路欠压。
组网情况
无。
原因分析
1.由于是在网设备(无故障4年左右),排除板内跳线设置错误;
2.配电柜至设备电源线内部或外皮有破损,施工要点和上班时段,线受外力震动等引起电压不稳(告警上报规律);
3.机柜电源配电盒PDU故障;
4.PDU至单板3V3端子内部电源线损坏;
5.设备其他单板故障,如AUX;
6.PIU单板备件存放时间过长,本身可能存在故障。
故障定位及处理过程
1.携带PIU、AUX、3V3端子内部电源线、仪表到现场要点处理;
2.现场分两组,一组检查下走线电源线外观是否破损,考虑到处理效率,另一组更换板件处理;
3.仪表测试27槽位3V3端子内部金属触点电压,未见异常,遂决定更换板件处理;
4.现场再次更换PIU单板,未能解决,更换AUX单板,未能解决;
5.更换3V3端子内部电源线,故障依旧;
6.另一组此时完成下走线电源柜至传输机柜电源线缆检查,未发现异常;
7.怀疑PDU存在问题,利用拆下来的3V3端子内部电源线旁接到同排另一传输机柜PDU上,告警依旧存在;
8.与技术人员讨论其他的可能性,注意到17槽位PWA指示灯亮红灯,18槽位PWA指示灯正常,怀疑有问题;
9.利用PDU开关做测试,电源关断A路,18槽位主控也亮红灯,怀疑17槽位主控有问题,网管做主备主控倒换,之后把17槽位GSCC拔出,告警消除。
总结和建议
1.在处理较为复杂故障时,尽可能形成完整的处理思路,逐步排除,特别要注意一些细节(例如:指示灯不一致);
2.将此问题咨询研发,原来OSN 3500的PIU单板电源检测是在GSCC上实现的,在排除外部电压、PIU单板和跳线设置等原因后可以考虑主控电压检测芯片故障;
3.告警上报在PIU单板,检测芯片在GSCC上(PIU本身也有检测电路),如果某块主控检测芯片坏,就会出现故障主控PWA/B指示灯亮红灯的不正常现象,而不是通常两块主控都亮红灯的特征,处理时注意分辨。