传输系统的日常维护工作经常要求我们对各类故障进行定位并及时排除。故障定位最关键的是将故障点准确地定位到单板,然后排除故障。这就需要对故障产生的原因、处理的思路及方法有一个清晰的认识,这样才能够达到事半功倍的效果。
传输故障定位的基本原则
众所周知,传输故障定位一般应遵循“先抢通后修复、先外部后传输、先单站后单板、先线路后支路、先高级后低级”的原则。
1.先抢通后修复
在出现故障时,系统维护者要首先抢通业务然后进行故障修复。如果存在影响业务情况下的传输网络告警故障,如在2Mbit/s业务通道出现LOS(信号丢失)告警,因外线原因导致的收无光告警,单元盘故障产生的UnitFailure(单元失效)告警等情况下产生的故障,必须首先抢通业务。
不过要想先抢通业务需要一个先决条件,那就是网络中有与故障通道相同起始点的可用通道资源或与故障板件相同的可用备板。
2.先外部后传输
在处理故障时应先排除外部的可能因素,如断纤、终端设备故障、电源或机房环境配套故障等,而后进行传输系统原因查找。当可能存在外界因素影响而产生传输网络告警故障时,如设备温度告警、光路告警、网元失效告警,也需照此原则处理。
3.先单站后单板
指在查找传输设备故障原因时,需要先定位到站点再定位到板件。
一般设备故障时,不会只是一个站点出现告警,而是在很多站点同时上报告警。这时就需要通过分析和判断缩小范围,快速、准确地定位是哪个单站的问题,而后尽可能准确地将故障定位到单站后再具体定位到单板。如处理光路误码、光功率异常等告警处理时,需要结合业务信号流,对告警与性能事件一起进行分析。可采用环回法、替代法、数据分析法、仪表测试法来判断告警及故障产生的原因,将其定位到单板。
4.先线路后支路
在处理故障时,如果支路出现了大量AIS告警,这时需要先排除线路板故障再查看支路板故障。
由于传输系统线路板的故障常常会引起支路板的异常告警,在处理告警时,应按“先线路后支路”的顺序,排除网管告警;如支路出现大量AIS则首先查看线路板是否出现LOS告警或其他异常告警,再查看支路板告警。
5.先高级后低级
在进行告警分析时,先分析高级别告警再分析低级别告警。
特别是当高、低级别告警同时存在时,应首先分析级别高的告警,如紧急告警、主要告警,然后再分析低级别的告警,如次要告警、一般告警。处理告警时,系统维护者先处理影响业务的告警。如果这些告警是由更高一级的告警引起的,则先处理更高一级的告警,如AIS、LOP等。如果是由LOS引发的,要先处理LOS告警。
传输故障形成原因
导致传输故障的原因很多,按照故障的来源,大体上可分为工程施工缺陷、日常维护操作不当、设备对接失败、设备外部原因及设备本身原因等。
1.工程施工不规范、质量差
此类故障有的在施工期间就能暴露出来,有的可能在设备运行一段时间或某些外因作用下,才暴露出来,从而为设备的稳定运行埋下隐患。为了杜绝此类故障,施工人员需要严格按工程规范施工安装,认真细致地按规范要求进行单点和全网的调试和测试。
2.日常维护操作不当
维护人员由于对系统了解不够深入细致,对具体设备的细节、性能特点和注意事项以及新老设备和新旧版本的特点和差别不清楚,就贸然开通而容易导致故障。此类故障最容易在升级扩容、新老设备及版本混用、使用新版的备板和使用未经系统联调的板件的情况下出现。
3.设备对接失败
由于传送业务的多样性和业务对传输通道性能需求的复杂性,传输设备的对接十分复杂,这时容易出现系列问题,比如线缆连接错误,设备接地不符合要求,传输、交换网络之间时钟同步异常,SDH帧结构中开销字节的定义差别等,都会导致故障的产生。