微信扫一扫 分享朋友圈

已有 1 人浏览分享

[通信职培] 传输网管上300条告警别慌——SDH“告警族谱”和“顺藤摸瓜”排故教法

[复制链接]

61

主题

0

回帖

1730

积分

超级版主

积分
1730

宣传达人sVIP会员VIP会员

发表于  昨天 21:57 | 显示全部楼层 |阅读模式

今天想跟各位同行聊一个很多新职工——甚至有些老职工——都容易犯怵的场景:网管屏幕上突然跳出几百条告警,红橙黄绿铺满屏,新手一看就懵,老手也容易抓不住头绪,盲目去现场跑断腿。

上个月,一个新职工小赵在处理一个“某站2M业务中断”的投诉时,看到网管上同时亮了R-LOS、MS-AIS、AU-AIS、TU-AIS、HP-SLM……一长串告警,他慌了,直接从备件柜领了个光模块就冲去车站,换了模块、换了板子、重启了设备,业务还是不通。最后我去一看,根本原因其实是一条光缆被施工挖断了,远端站收不到光,所有下游告警都是衍生出来的“假热闹”。

这件事让我反思:我们培训时,是不是太强调“单个告警的含义”,而忽略了“告警之间的父子关系和推理顺序”?今天我就拿这个案例,讲讲我怎么教新学员在几百条告警中“顺藤摸瓜”,快速抓住那个真正的根告警。

一、SDH告警不是“菜市场”,是“族谱”

我教新学员的第一课,一定是在白板上画一棵“告警树”。我告诉他们:SDH告警是有严格的逻辑层次的,就像家族族谱,你找到老祖宗,底下那些儿孙都是跟着来的。

拿最常见的2M业务中断举例。我把推导过程拆成三步问:

第一步:先看最底层——光口有没有告警?
我让学员养成习惯:不管业务是什么,先点开设备的“光口”性能页。看R-LOS(接收信号丢失)或R-LOF(接收帧丢失)。如果这两个亮了,那99%的可能是:对端没发光、光缆断了、光模块坏了、或者光衰太大。
这时候,所有上层的MS-AIS、AU-AIS、TU-AIS、2M AIS,全部是“被连累”的,你不用一个个去查。

第二步:光口正常,再看高阶通道。
如果光口没告警,再看高阶通道有没有HP-RDI、HP-UNEQ、HP-SLM。我教他们记一个口诀:“光口看红光,高阶看标签,低阶看时隙”。什么意思?高阶通道告警,多半是交叉连接配错了、或者远端设备没配置这个VC4通道。

第三步:高阶正常,最后看低阶。
如果高阶也正常,业务还是不通,再看低阶有没有TU-AIS、LP-RDI、LP-UNEQ。这时候往往是2B的时隙配置两边不对、或者2M板子坏了。

这个三步法,我让每个学员背到脱口而出,并且反复用模拟网管做“告警风暴”训练——我给出一张满是告警的截图,让他们在10秒钟内说出:先看哪个参数、优先处理哪个设备。

二、把“死数据”讲成“活逻辑”——一个-28dBm的启发

光功率这门课,很多教员就是教“收光在-5dBm到-28dBm之间合格”。但我不这么教。我会拿出一份实测数据:某条光缆,收光-27dBm,网管无告警,但业务偶尔出现CRC校验错。

我让学员去现场,用OTDR打一下,发现距离我们10公里处有一个0.8dB的“小台阶”——那是光缆受挤压造成的微弯损耗。虽然总衰耗没超标,但反射和色散已经劣化了信号质量。

我跟他们说:“-28dBm是红线,但你不能等踩到红线再动手。行车通信的CTC/TDCS通道,误码率要求是10⁻⁶以下,而普通办公网通道是10⁻³。同样是-28dBm的收光,办公网可能还能看网页,但列控数据的一个误码位,就可能让调度台显示灰屏。所以,我们不是修‘亮不亮’,是修‘稳不稳’。”

这样一来,学员就懂了:光功率不是越接近-28dBm越好,而是要为误码率留出“安全裕度”。

三、有线思维 vs 无线思维的对比——一个让学员恍然大悟的案例

有线和无线,排查思路完全不同。我在课堂上故意出一个对比题:

情景A:某传输环上一个站,网管上报R-LOS。我让学员说排查步骤。他们很快答出:用OTDR测距、判断断点公里数、带备纤上道、找施工点。这是“定量”思维,OTDR直接给你一个距离值。

情景B:某GSM-R基站覆盖区,场强-78dBm但偶尔掉话。我让学员说步骤。很多新手脱口而出:“去测场强。”我反问:“你场强仪都测到-78了,够了啊,为什么还掉?”他们就卡住了。
我告诉他们:无线故障是“定性”排查。你要测的不是“有没有信号”,而是“有没有干扰”。用频谱仪扫一下上行频段,看有没有杂散信号。那次排查,最后发现是附近一个工地的对讲机谐波刚好落在铁路上行频段,场强仪测的是下行信号,根本看不出来。

我总结了一句让所有学员记在本子上的话:“有线故障,拿尺子量;无线故障,拿筛子筛。”

四、与信号系统的接口故障——通信人不能只会“看自己的灯”

通信通道中断,导致CTC灰屏、车次号丢失,这是最常见的接口故障。我培训时,专门拿出一张“接口故障联动排查表”,左边是通信现象,右边是信号现象,中间是共同原因。

比如:CTC显示灰屏,但通信网管显示2M电路正常。这时候我教学员不要只盯着自己的网管,要去问信号工区:“你们的协议转换器POWER灯亮吗?LOS灯闪吗?”那次,最后发现是信号侧协议转换器的电源模块老化,输出电压只有3.8V(额定5V),设备能亮灯但无法正常工作。

我给学员的作业是:画一张“通信-信号接口故障对照卡”,一面是通信的告警,另一面是信号的可能现象。比如:
- R-LOS → 信号侧可能收不到任何数据
- MS-AIS → 信号侧可能收到全“1”码,设备会判断为“载波丢失”
- 2M误码率超过10⁻⁶ → 信号侧可能周期性中断、车次号偶尔丢失

这样一来,学员再去现场联合作业时,不会只闷头测自己的光口,而是能主动和信号工友说:“你帮我看一下你那边的协议转换器,收我们这边过来的2M信号有没有告警?”

五、留给各位同行的问题

你们工区在训练新学员处理传输网管的海量告警时,有没有比“死记硬背告警等级”更高效的方法?比如用“告警压制”功能先过滤衍生告警?或者像我这样用“告警树”做模拟推演训练?

还有就是,面对那些“网管显示正常,但业务就是不通”的软故障(比如时钟不同步、指针调整过多),你们有没有什么独家的教法和口诀?欢迎跟帖交流,咱们通信系统的“老李教学帖”,不求讲得高深,但求每一个dB、每一个告警,都能讲成一线兄弟能听懂、能上手的安全逻辑。

0

主题

0

回帖

20

积分

新手上路

积分
20
发表于 2 小时前 | 显示全部楼层
尊敬的同行,感谢分享!您提出的“告警族谱”与“顺藤摸瓜”法,正是SDH排故的精髓——从海量告警中精准定位根因,而非被表象淹没。建议教学中引入“告警树”可视化工具,让学员直观理解告警的层级与因果链。专业在于:先抓LOS、AIS等源头告警,其余自消。启发在于:故障不是敌人,而是系统在“说话”。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

0

关注

0

粉丝

61

主题
  • 关注微信服务号

  • 扫描下载APP

手机版|美路科技旗下网站|铁道职培 ( 鲁ICP备18021794号-3|鲁公网安备37130202372799 )|网站地图

GMT+8, 2026-6-7 02:21 , Processed in 0.161848 second(s), 56 queries .

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.