常见症状包括:延迟抖动(latency jitter)突然上升、丢包(packet loss)、会话断开、BGP会话重置或路由频繁变动(route flapping)。
关注:往返时延(RTT)、丢包率、BGP UPDATE 频率、BGP 会话状态、接口错误计数(CRC、input errors、output errors)、队列丢包(tail drops)、流量突变(NetFlow/sFlow)。
使用 ICMP/TCP 合成探测、MTR、SNMP 曲线、sFlow/NetFlow、BGP 集中监控平台(如BIRD/Quagga/路由监控系统)以及 ISP 的 SLA 报表。
当同时出现 RTT 急升 + 丢包 + BGP update 增加时,优先考虑链路质量或上游运营商问题;若只有 BGP 路径变化则可能是路由策略或 BGP 震荡。
先做最小震荡的验证:从多个站点进行并行探测,确认是否为全局性问题或单点链路问题。
同时发起:本地到目的地的 mtr、从第三方云(如 AWS/Singapore / GCP)或 RIPE 看玻璃(Looking Glass)做 traceroute/MTR。
Linux 示例:ping -c 10 destination;mtr -rwzbc100 destination;traceroute -n destination。BGP 查看:show ip bgp neighbor X.X.X.X received-routes
若本地探测无异常但跨境/ISP探测异常,则为CN2 或上游运营商问题;若本地接口出现 CRC/丢包,则为本地链路或设备;若不同上游看到不同路径,检查 BGP 策略与路由反射器。
BGP 层面重点看邻居状态、UPDATE 频率、AS_PATH 变化和社区(community)标记。CN2 常见问题包括策略误配置或上游做了流量工程调整。
查看 peer 状态(established/active)、BGP update log、路由震荡日志、是否触发了 route flap dampening、以及是否有 community 被意外设置导致流量偏离。
1)对出问题邻居执行 soft reset:clear ip bgp X.X.X.X soft out/in;2)若需要快速切换路径,可临时调整 local-preference 或做 AS-path prepend;3)向 CN2 提交工单并提供 mtr/traceroute、bgp dump。
避免频繁 full-reset(clear ip bgp *)导致更大规模路由震荡;配合运营商时提供精确时间戳和 BGP update 截图,使用社区或 MPLS 标签请求临时优先级调整。
遇到链路异常按优先级执行:物理层 -> 接口配置 -> 设备资源 -> 运营商合作。
查看 SFP/光口状态、interface counters(errors、drops、collisions)、duplex/速率不匹配、光功率(dBm)、CRM/CPU/MEM 使用率。
1. 物理替换疑似损坏 SFP 或短纤;2. 重新插拔/重启端口并观察 counters;3. 临时关闭并启用接口让 L2 重协商;4. 若为设备性能瓶颈,做流量迁移或启用备链路。
提交工单包含时间窗、影响描述、mtr/traceroute、BGP dump、snmp/ifCounters;按 SLA 要求催单并逐级升级(NOC -> 工程 -> 线路组)。同时启用备路径并做流量切换。
事后需做根因分析(RCA),并将修复步骤写成可执行的 runbook,形成自动化或半自动化的应急脚本。
保存当时的 MTR、traceroute、BGP update log、接口 counters、SNMP 曲线和运营商工单,标注事件开始/结束时间、影响范围与恢复方法。
1)建立多上游(多 CN2 节点或异地 CN2/普通链路)做 BGP ECMP 或策略冗余;2)设定合理的告警阈值与合成探测频率;3)使用 BFD 加快检测并结合自动化脚本做流量切换。
定期与 CN2 提供方对账 SLA、演练故障切换流程,维护好社区/工程联系人清单,并将关键修复命令加入运维自动化平台以缩短 MTTR。
