1. 精华一:先测链路、后改配置——用 ping/mtr/traceroute 复现问题并量化 延迟与 丢包。
2. 精华二:关注 BGPCN2
3. 精华三:系统级 TCP优化+网卡/MTU 调整往往比单纯加带宽更有效,配合主动监控形成闭环。
作为有多年在东南亚与中国大陆网络互联经验的运维工程师,我把这篇文章当作实战手册,为在柬埔寨部署CN2
第一步:快速复现与量化。遇到用户反馈延迟或不稳定,先用:
ping -c 20 <目标IP>,mtr -rwzbc100 <目标IP>,traceroute -I <目标IP>。记录丢包点与时延突增的跳数,若中间跃点丢包或延迟陡增,说明问题在上游链路或对端策略而非本地服务器。
第二步:链路层诊断。检查本地网卡与物理链路:
ethtool eth0(查看协商速率/错误),dmesg | grep -i eth(有无网卡错误),如果发现rx_errors/tx_errors,先更换网线/端口并调整速率为1000/full再确认。确认MTU是否一致:ip link show eth0;若遇到分片导致的慢速,尝试把本地MTU设为1472或1450以测试。
第三步:抓包与深度分析。使用tcpdump和Wireshark定位问题类型:
tcpdump -i eth0 host <目标> and port 443 -w dump.pcap,然后分析TCP重传、RST、SYN重试或三次握手耗时。大量重传通常指示链路拥塞或MTU问题;RST与连接被重置可能是防火墙或对端策略。
第四步:路由与BGP诊断。对CN2链路,BGP策略至关重要。用:
bgp summary(或路由器命令)检查邻居状态、AS路径及MED/LocalPref。建议启用多线:主用CN2
第五步:系统与内核层面的TCP优化。生产环境常见优化项:
编辑 /etc/sysctl.conf,设置 net.core.rmem_max=67108864 net.core.wmem_max=67108864 net.ipv4.tcp_rmem=4096 87380 67108864 net.ipv4.tcp_wmem=4096 65536 67108864 net.ipv4.tcp_congestion_control=bbr net.ipv4.tcp_window_scaling=1。启用 BBR 在高丢包长延迟场景常能显著提升吞吐。
第六步:应用层与SSL优化。检查Nginx/Apache的keepalive、worker配置与SSL握手参数:
降低TLS握手开销可启用session resumption与OCSP stapling;大连接环境下适当调大keepalive_timeout/worker_connections,避免C10K瓶颈。同时结合前端CDN或Edge缓存,减少跨境回源次数。
第七步:防火墙与中间设备排查。确认iptables/nftables没有误拦截或限速:
iptables -L -nv(查看规则),tc qdisc show(查看是否有限速),如果存在中间负载均衡器或DPI设备,需与运营商确认是否做流量整形或包丢弃。
第八步:监控与告警建设。量化SLA并监控关键指标:
接口丢包率、RTT P95/P99、TCP重传率、应用请求失败率和用户感知响应时间。建议使用Prometheus+Grafana采集netdata、node_exporter和BGP/iperf定时检测脚本,设置阈值自动告警并触发回滚或路由切换。
第九步:实战优化建议汇总(优先级排序):
1) 保证物理链路与网卡无错误;2) 优化MTU/MSS并验证无分片;3) 优化内核TCP参数并启用BBR;4) 校准BGP
第十步:常见故障与对应处置清单(快速参考):
症状:丢包集中在某一跳→联系运营商/更换出口;症状:整体延迟高且持续→检查链路拥塞/更换路径;症状:短时抖动→检查排队策略(QoS)、中间设备限速或DDOS保护误判。
第十一步:故障演练与SOP。建立故障演练流程(故障注入、变更回滚),并保留完整的排查日志(ping/mtr/traceroute抓取、tcpdump包、路由表快照),以满足事后Root Cause Analysis(RCA)。
第十二步:安全与合规。当使用CN2或跨境链路时,合规与安全审计不可忽视。确保日志完整、TLS强制、端口最小化、并定期做入侵检测与补丁管理,避免因为安全事件导致“误判”的网络中断。
结语:在柬埔寨回国服务器,对CN2