1.
日常巡检总览(每日、每班)
1) 每日例行时间:08:30、14:30、22:30 三班巡检并记录结果。
2) 巡检目标:带宽占用、连接数、CPU/RAM、conntrack、硬盘I/O。
3) 命令示例:iftop -t -s 2、vnstat -tr、ss -s、free -m、df -h。
4) 报表记录:将关键指标写入运维日志(含截图与ps aux)。
5) 告警阈值:入流量>500Mbps或pps>100k触发二级告警;conntrack>200k触发扩容提醒。
6) 周报内容:汇总7日带宽峰值、攻击次数、黑洞/清洗次数与恢复时间。
2.
关键监控项与阈值说明
1) 带宽阈值:>=1.6Gbps(接近2G防护上限)视为高危流量。
2) PPS阈值:>150,000 pps 需立即排查SYN/UDP洪泛。
3) 连接数阈值:总连接数>500万或单IP并发>50k需限速。
4) CPU/RAM阈值:单核load>4或内存使用>85%触发扩容或清理。
5) conntrack阈值:默认表大小100000,超过70%要扩容到300000并调整nf_conntrack_max。
6) 日志监控:/var/log/messages、nginx access/error、pf_ring/af_packet统计需实时采集。
3.
常用检测命令与输出解读
1) 带宽实时:iftop -P -i eth0;看源/目的IP占比。
2) 连接统计:ss -s 与 netstat -anp | grep SYN,查看半连接数。示例:SYN_SENT: 120k。
3) conntrack检查:cat /proc/sys/net/net filter/nf_conntrack_count。示例:120345。
4) 报文分布:tcpdump -n -c 1000 -w sample.pcap port 80,分析报文头部与payload。
5) 日志快速检索:grep "SYN" /var/log/nginx/access.log | awk '{print $1}' | sort | uniq -c | sort -nr | head。
6) 接口错误:ethtool -S eth0 检查drop、rx_err,发现drop>1000需检查硬件或驱动。
4.
服务器配置示例与表格展示
1) 示例机型为柬埔寨边缘节点:4核CPU、16GB RAM、2x1Gbps绑定或1x10Gbps口。
2) 防护软件:Nginx+Fail2ban、Conntrack、iptables+xt_limit、Suricata做初步流量分析。
3) BGP/上游:ISP支持RTBH与流量清洗,配置手册与联系人需常备。
4) 配置表如下示例便于复制参考(表中为常用阈值与规格):
| 参数 | 示例值 |
| CPU | 4 cores @2.4GHz |
| 内存 | 16 GB |
| 带宽能力 | 2 Gbps 防护上限 |
| conntrack_max | 300000 |
| pps 警戒 | 150,000 pps |
5) 保存配置:/etc/sysctl.conf 设置net.netfilter.nf_conntrack_max=300000并sysctl -p生效。
5.
DDoS事件快速响应流程(检测→封堵→恢复)
1) 发现阶段:监控或上游告警推送后,运维在5分钟内确认流量类型(SYN/UDP/HTTP)。
2) 识别阶段:用tcpdump抓样本并用Wireshark或Suricata规则确认攻击指纹。
3) 初级封堵:对可疑源IP黑名单(iptables -I INPUT -s x.x.x.x -j DROP)并启用rate-limit。
4) 上游交涉:当本地清洗无法降低时立即联系ISP请求BGP黑洞或转发到清洗中心(发送示例路由公告)。
5) CDN策略:对域名启用灰度切换到CDN代理或WAF,瞬时吸收大量请求并放大缓存命中。
6) 恢复与复盘:事件结束后记录TTR/TTR(Time to Recover/Resolve),更新规则与白/黑名单。
6.
真实案例:柬埔寨某ISP 1.6Gbps SYN洪泛应对
1) 事件概述:2025-09-12 03:10,边缘节点收到峰值1.6Gbps、pps约180k的SYN洪泛。
2) 初步检测:ss -s 显示SYN-RECV=140k,conntrack_count=150k,cpu load spike至3.8。
3) 临时处置:启用iptables SYNPROXY、调整tcp_max_syn_backlog=4096并下发BGP RTBH null-route 5分钟。
4) 上游清洗:ISP将流量导向清洗池,清洗后回传正常流量仅剩240Mbps,业务恢复30分钟内。
5) 事后措施:将攻击IP段写入黑名单并增加WAF规则与GeoIP限制,同时把nf_conntrack_max提升到400k避免表溢出。
7.
日志与取证标准化步骤
1) 抓包保存:tcpdump -s 65535 -w /var/log/attack_YYYYMMDD.pcap 并上传至安全小组。
2) 日志保全:将nginx/access、syslog、suricata-alerts等统一打包并做时间戳校验。
3) 取证格式:保留原始pcap与提取的统计CSV(源IP、目标端口、pps、字节数)。
4) 合规与报案:如需与ISP或执法部门配合,提供标准化报表与PCAP摘要。
5) 归档周期:攻击事件及相关日志最少保存90天,关键取证至少保存12个月。
8.
演练与优化建议(运维提升项)
1) 每季度组织一次DDoS演练(含模拟1.5-2.0Gbps攻击),验证清洗链路与协调流程。
2) 自动化脚本:编写脚本定期检查conntrack并在阈值临近时自动扩容并告警。
3) 监控完善:接入Zabbix/Prometheus收集pps、tcp_half_open、iface_drop等指标并做可视化。
4) 规则库维护:定期更新Suricata与WAF签名,保持新型攻击检测能力。
5) 与上游建立SLA:明确清洗响应时间、流量上限与联系人,季度复测联动通道。
来源:运维手册柬埔寨2g防御服务器日常检测与DDoS事件响应流程