1.
总体排查流程概览
(1) 确认故障范围:单台实例、同一VPC内多台实例、还是整个机房/可用区影响;
(2) 收集时间线:首次报警时间、监控告警、用户反馈时间点;
(3) 检查控制台:登录腾讯云控制台->实例列表->实例状态、最近操作与快照;
(4) 查监控数据:CPU/内存/磁盘IO/带宽/丢包率在Cloud Monitor的历史曲线;
(5) 明确优先级:线上生产服务优先保证,按SLA与业务影响等级分级处理;
(6) 记录变更:所有操作在故障单中记录,便于回滚与归因。
2.
网络连通性与路由基础检查
(1) 使用ping -c 10 公网IP与内网IP,记录丢包率和平均延迟;示例:ping 203.0.113.45 平均延迟 72ms 丢包 0%;
(2) 使用traceroute/tracert定位跳点延时或丢包集中点;示例:traceroute 到 203.0.113.45 第5跳卡住说明ISP或机房出口问题;
(3) 检查安全组与ACL:确认0.0.0.0/0、所需端口(80/443/22/3306等)规则是否被误阻断;
(4) 检查路由表、NAT网关与弹性IP(EIP)绑定状态;
(5) 若为域名访问异常,先尝试nslookup/dig,确认DNS解析是否指向正确EIP或CNAME。
3.
主机资源与进程级排查
(1) CPU/内存查看:top 或 htop,记录CPU使用峰值与负载(load average);示例:4核8GB实例 loadavg 5.2/4.8/4.1,CPU 95%;
(2) 磁盘与IO:df -h 查看磁盘使用,iostat -x 1 3 检查IO等待(await>50ms为异常);
(3) 网络连接数:ss -tunap 或 netstat -anp,查看半连接(SYN_RECV)与ESTABLISHED数;
(4) 日志检查:/var/log/messages、应用日志与Nginx/Apache日志 tail -n 200,定位错误码或大量请求来源IP;
(5) 进程线程堆栈:对高CPU进程使用strace -p 或 jstack(Java),快速定位代码或系统调用瓶颈。
4.
域名与CDN相关问题排查
(1) DNS解析链路:dig +trace example.com 检查权威DNS与TTL,确认解析已生效;
(2) CDN配置核对:确认回源地址(Origin)是否为正确EIP或域名,回源端口与自定义Header是否匹配;
(3) 缓存与刷新:根据业务判断是否需要清理CDN缓存或降低缓存时间以排查回源问题;
(4) HTTPS证书:确认证书是否过期或中间链正确,使用openssl s_client -connect domain:443 验证;
(5) 流量分布:通过CDN控制台查看访问地域分布与请求状态码,排查是否为边缘节点异常。
5.
DDoS与流量异常的识别与初步处置
(1) 识别:Cloud Monitor流量曲线突增、pps(包每秒)飙升或大量同源IP请求为疑似攻击;示例:短时内带宽从20Mbps升至1.2Gbps;
(2) 临时防御:在腾讯云控制台启用DDoS防护基础策略或托管清洗,必要时启用黑洞或速率限制;
(3) ACL与WAF:通过安全组/ACL快速封禁恶意源IP段,使用WAF进行应用层规则拦截;
(4) 日志取证:保存tcpdump -w ddos_capture.pcap 的抓包文件与Cloud Monitor图表供后续分析;
(5) 恢复与优化:攻击缓解后评估带宽与防护策略,考虑配置高防IP或接入更高等级DDoS防护套餐。
6.
远程诊断工具与常用命令清单
(1) 网络诊断:ping, traceroute/tracert, mtr,记录延迟/跳数;
(2) 端口/服务:ss -tunap, netstat -anp, nmap 对外端口扫描;
(3) 抓包与分析:tcpdump -i eth0 port 80 -w /tmp/http.pcap,结合Wireshark本地分析;
(4) 性能监控:top, htop, iostat, vmstat, free -m, sar,记录资源变化趋势;
(5) 日志与文件:tail -f /var/log/nginx/access.log, journalctl -u 服务名,定位错误栈。
7.
真实案例:柬埔寨机房某电商双11突发故障与处理
(1) 背景:某电商在柬埔寨机房(公有云实例)双11高峰出现支付回传失败,用户投诉超时;
(2) 监控表现:Cloud Monitor显示后端实例带宽从常态30Mbps突增到450Mbps,同时Nginx 502/504错误增多;
(3) 排查过程:使用ss发现大量SYN_RECV,tcpdump定位大量源端口随机的TCP请求疑似SYN Flood;
(4) 处置措施:临时在控制台开启腾讯云高防包并对疑似源IP段下发安全组deny,清理CDN缓存回源频率限制;
(5) 结果与优化:攻击平稳后部署高防IP并增加Nginx keepalive及连接速率限制,后续将带宽从100Mbps升级到500Mbps并建立自动告警规则。
8.
服务器配置示例与排查数据表格展示
(1) 示例配置:ECS-标准型 s4.large,4核8GB,系统盘 50GB,月带宽峰值 100Mbps;
(2) 实测数据:上线前基准测试QPS 1200,平均响应 120ms;
(3) 排查数据表:以下表格示例展示三台实例的关键指标对比;
(4) 说明:表格中“丢包%”为ping 10次平均丢包率,“AvgRTT”为平均往返时延;
(5) 操作建议:对异常行按优先级逐项进行命令级排查并录像留证。
| 实例ID |
配置 |
CPU |
带宽 |
丢包% |
AvgRTT(ms) |
| ecs-camb-01 |
4核8GB/50GB |
35% |
80Mbps |
0% |
68 |
| ecs-camb-02 |
2核4GB/50GB |
92% |
120Mbps |
1.5% |
225 |
| ecs-camb-03 |
8核16GB/100GB |
12% |
300Mbps |
0% |
55 |
来源:腾讯云柬埔寨机房故障排查手册与常见问题处理步骤集锦