核心要点:不是巧合,是那块被重启的板子根本没修好,故障转移到背板总线上了。
现场常见的处置误区是,某块单板偶发告警,通信工到场重启一下,告警消失,观察半小时没问题就走了。几天后同一机框的另一块板卡报故障,很多人以为是独立事件。实际上,重启能让单板重新加载固件和建立背板通信,暂时掩盖了问题,但背板的某条时钟总线或通信总线存在间歇性接触不良,一直在承受应力。重启时产生的电流冲击和热循环,会让背板插针焊点的微裂纹扩大,下次受震动或温升影响,就轮到相邻槽位的板卡通信异常。
排查要从背板共用资源入手。让网管导出近期所有告警,看报故障的板件是否集中在同一个槽位组,或者是否共享同一条背板总线。然后用示波器在机框背板测试点测时钟信号眼图,信号过冲或幅度不足就是背板阻抗不连续或端子氧化。同时检查机框风扇滤网是否堵塞,机框温度过高会让背板插针热胀冷缩加剧接触不良。
关键提醒:偶发告警不能一重启就收工。重启只是临时恢复,要结合历史告警做趋势分析,找到频繁告警的共用背板路径,天窗点内更换故障背板或整框,把病根拔掉。