从运维视角,CN2线路常见故障包括:链路抖动(jitter)、丢包(packet loss)、高延迟(latency)、路由不稳定(BGP flaps)、MPLS标签或TE路径异常、以及运营商侧拥塞或光缆故障。新加坡/香港作为国际出口,常见的还包括国际链路拥塞、IX对等质量问题和海缆维护导致的突发性能下降。识别症状时要区分是本地设备(防火墙、ACL、MTU)导致还是上游CN2链路问题。
排查时优先查看:端到端丢包率、RTT波动、链路双方的BGP状态、以及是否存在流量工程/策略路由导致的路径变化。若是香港/新加坡节点问题,通常表现为到这些中转点的路由跳数突增或单跳延迟飙升。
标准排查流程建议按步骤执行:1) 明确故障范围(是单实例、单机房还是全网);2) 复现与监控确认(使用长期监控数据对比);3) 路径分析(traceroute/MTR);4) 吞吐与丢包测试(iperf3、ping);5) 抓包定位(tcpdump/wireshark);6) 检查路由与BGP(路由表、邻居状态);7) 与运营商沟通并提交工单。每步都需记录时间戳和命令输出,便于追溯。
执行命令时建议:在故障时段多点采样、使用不同目的地(香港、新加坡公共节点)、采用Paris-traceroute或MTR以减少因ECMP导致的误判;抓包时要包含TCP三次握手与ICMP响应以确认链路层问题。
推荐工具清单:traceroute / tracepath / paris-traceroute(路径定位)、mtr(实时丢包/延迟)、ping(连通性与丢包基线)、iperf3(吞吐能力测试)、hping3(定制流量与MTU测试)、tcpdump / Wireshark(抓包分析)、bgp looking glass / bgp.tools / bgp.he.net(远端路由查看)、RIPEstat / RouteViews(历史路由与BGP事件)、以及监控系统如Zabbix、Prometheus、Grafana用于长期趋势分析。
对CN2这类运营商链路,优先利用运营商的Looking Glass和路由可视化工具确认对端是否看到你的前缀;使用iperf3做双向测试以排除单向问题;抓包时记录时间戳、TTL与序列号,便于与运营商对账。
定位到运营商时的关键是证据链:先从本端排除(设备、ACL、MTU、CPU、队列);若本端无异常,使用traceroute/MTR定位到出现问题的跳点(通常是运营商AS或中转设备);再用BGP Looking Glass、公网路由分析工具确认上游或中转AS是否对你的前缀出现路径变化或丢弃;抓取双方流量(pcap)证明丢包或RST行为发生在运营商链路上。
同时收集的证据应包括:多点时间序列的MTR/Traceroute输出、iperf3吞吐报告、pcap证据、以及相关链路的SNMP或接口错误计数。把这些证据整理成时间线,能极大提高运营商响应速度与准确性。
打开工单时应提供:故障发生的精确时间范围(UTC/本地)、受影响的源/目的IP、traceroute/MTR的完整输出、pcap样本、BGP邻居状态和路由表片段、以及业务影响描述(TPS、用户量、链路类型)。同时标注你已做过的排查步骤以避免重复工作。
注意事项包括:一是避免只提供单次快照,提供多时段数据便于运营商复现;二是使用统一时间源(NTP)并在日志中加入时间戳;三是要求运营商提供链路端口错误计数、光模块报警、以及是否有维护计划或ACL变更记录。若遇到跨国中转问题,可要求跟进涉及的中间AS的联系信息或介入级别提升(SLA/Escalation)。
