监控告警首先触发,带宽利用率和连接数瞬时飙升,应用响应延迟增加。通过流量采样(NetFlow/sFlow)与tcpdump抓包,对比基线流量特征,判定为典型的DDoS(SYN/UDP/HTTP混合)攻击。初步评估包括攻击带宽、并发连接数、来源ASN分布和目标端口,优先判断是否为短时峰值还是持续性攻击,以决定是否启动上游清洗或本地阻断。
首先在边界路由处启用策略路由与ACL,临时黑洞(RTBH)用于阻断最明显的攻击源IP段;同时将可疑流量导向本地或云端清洗节点(scrubbing center)。清洗过程包括按报文层次做速率限制、TCP三次握手验证、基于HTTP行为的挑战(验证码/JS挑战)、并用IP信誉与ASN过滤剔除噪声。关键点是逐步从高层到低层精细化过滤,避免误伤正常用户并保留日志供溯源。
网络层面部署Anycast与CDN分发,减少单点带宽压力;在路由端配置BGP社区以协助ISP做流量调度。主机层面启用WAF、限速、连接追踪阈值调整、SYN Cookie、内核tcp_max_syn_backlog优化、并用nftables/iptables限制异常包和异地登录尝试。还修补了被利用的服务漏洞、关闭不必要端口与服务,并对管理控制台启用双因素认证和IP白名单。
第一时间通知ISP并请求流量轨迹与上游过滤支持,提供攻击样本(pcap/NetFlow)加速定位;同时触发云厂商的应急预案(如流量旁路、上游清洗或临时ACL注入)。签订事先约定的SLA与清洗策略模板能显著缩短响应时间。协作要点:共享指纹、明确保留正常流量特征、并在解除紧急策略后核验误封情况。
事后复盘需记录时间线、攻击特征与处置效果,形成Runbook并更新WAF规则与黑白名单。长期防护包括常态化流量基线与异常检测、定期演练DDoS应急方案、部署多层防御(CDN/Anycast/WAF/IDS/IPS)、与ISP保持沟通渠道、以及对关键应用做降级与冗余设计。最终目标是把单点故障转为可控降级,并把检测-响应-恢复纳入SRE/安全运维流程中。