1.
概述与准备工作
目标:建立可监控、可回溯的体系。小分段:a) 清点资产(公网IP、内网IP、BGP邻居、交换机/路由器型号);b) 确认访问权限(服务器root/管理员、路由器/防火墙控制台、云控制台);c) 准备工具(ssh、scp、iperf3、mtr、tcpdump、netstat、Prometheus/Grafana 或 Zabbix)。
2.
基础监控项与采集指标
小分段:CPU/内存/磁盘(node_exporter 或 agent);网络(接口流量、丢包、错误包);链路时延(连续mtr或ping采样);应用层(HTTP 200、响应时间、数据库慢查询)。建议采集频率:网络/链路每30s,主机指标每15-60s。
3.
搭建监控与告警流程
小分段:1) 部署 Prometheus + node_exporter + blackbox_exporter;2) 在 Grafana 建仪表盘:带宽、丢包、RTT、连接数;3) 配置 Alertmanager:阈值示例——丢包>2% 且持续5min 告警,RTT>200ms 持续3min;4) 告警通道:企业微信/Slack/短信并附自动化脚本链接。
4.
实时链路诊断常用命令和步骤
小分段:a) traceroute/tracert:确认跳数与异常跃点;b) mtr -rwz(持续采样并保存CSV);c) ping -c 100 -s 1400 目标IP(判断丢包与抖动);d) iperf3:在国内/回国节点做双向带宽测试(iperf3 -s / iperf3 -c);保存结果用于对比。
5.
流量抓包与会话分析
小分段:tcpdump -i eth0 -w dump.pcap host <目标IP> and port <端口>,限时抓包(例如:-c 10000 或 -G 60);使用 Wireshark 或 tshark 过滤重传、RST、重排;查看三次握手耗时(SYN->SYN/ACK RTT)判断网络延迟源。
6.
定位是网络层还是主机层问题
小分段:步骤:1) 若全部用户都受影响且监控显示链路丢包/RTT异常,优先网络层;2) 若仅部分服务或进程异常,先排查主机(top、dmesg、iostat、netstat -tunp);3) 并行对比不同目的地的ping/iperf,判断是否回国路径特定问题。
7.
常见故障与逐步处置指南
小分段:故障A:回国丢包高——操作:1) 用 mtr 定位跃点,2) 在上游路由器上查看接口错误/拥塞,3) 与带宽提供商核对 BGP 路由;故障B:带宽瓶颈——操作:检查带宽占用进程(iftop/nethogs),临时限速或调整 QoS;故障C:应用超时——查看应用日志、数据库连接池、重启进程并观察。
8.
如何使用BGP/运营商手段快速恢复
小分段:a) 联系 CN2 运营商,提供 traceroute/mtr/pcap;b) 如可操控BGP:临时调整社区/下一跳、宣告更优路由或切换到备用出口;c) 在云环境可切换至备份线路或回滚到国内机房。
9.
案例记录与回溯分析(Runbook)
小分段:每次故障记录模板:时间线、监控截图、命令输出、抓包文件、临时处置、最终根因。定期演练(每季度)和更新告警阈值,避免误报和漏报。
10.
问:迁移后首日如何快速确认回国链路健康?
答:在迁移完成当天执行:1)全量mtr到主要回国节点并保存CSV;2)连续ping(至少10min)与iperf3双向测试;3)检查Prometheus短期趋势并设置临时严格告警;若发现异常立刻抓包并通知运营商。
11.
问:出现间歇性丢包怎么在短时间内定位责任方?
答:先用mtr定位异常跃点,再在本地与上游路由器间分别抓包对比(确认丢包发生在哪一侧);同时对比不同回国目的地,如果多个目的地都异常,优先判断运营商链路问题,反馈给CN2并上传mtr与pcap。
12.
问:如何把日常监控做到可自动化并降低故障MTTR?
答:建立自动化脚本(故障时自动执行mtr、iperf3、抓包并上传结果)、完善告警分级与手机通知、定期演练 Runbook,并在Grafana中加入自动化诊断面板(一键执行常用命令的按钮)。