灾难恢复 (Disaster Recovery)
从灾难中恢复数据和系统的能力。DataTalks.Club灾难事件揭示了未经测试的备份策略的脆弱性——自动快照与基础设施绑定,被一并删除,最终依赖AWS"隐藏快照"才得以恢复。
关键教训
- 任何备份策略未经灾难演练都等于没有备份
- 自动快照不应与基础设施绑定
- 需要端到端的恢复测试
- 引入"破坏性测试机器人"定期模拟delete、destroy、rm -rf,验证恢复链路
最佳实践
- 每日自动Lambda+Step Functions测试快照恢复
- 启用AWS Backup等独立备份服务
- 备份存储在与生产环境隔离的账户或区域
- 定期进行灾难恢复演练
- 记录恢复时间目标(RTO)和恢复点目标(RPO)
相关概念
- [[infrastructure-as-code]] — 基础设施即代码
- [[ai-permission-overreach]] — AI权限泛滥
- [[engineering-deployment-ai]] — 工程化部署AI