自愈反馈闭环(Self-Healing Loop)
自愈反馈闭环是Harness Engineering中的关键实践,是一个自动化的错误检测、诊断、修复和验证的闭环系统。它解决了AI-First工程中"验证滞后"的瓶颈,是实现高速交付和稳定性的关键保障。
工作流程
- 健康摘要:每天9:00 UTC,Claude Sonnet 4.6查询CloudWatch,生成系统健康摘要并推送到Microsoft Teams
- 错误聚类:1小时后,triage engine聚类Sentry + CloudWatch错误,按9个维度打分
- 自动创建Ticket:自动在Linear创建ticket(含样本日志、影响用户、建议路径)
- 去重与回归检测:相同模式更新现有issue,旧issue复现则reopen
- 修复与验证:工程师推送修复→三路Claude review→六阶段deploy→triage engine再次验证→自动close ticket
核心特点
- 全自动化:错误检测→诊断→修复→验证全自动
- 人类介入点:仅在"风险判断"环节介入
- 闭环系统:从检测到验证形成完整闭环,无需人工干预
技术组件
- CloudWatch:AWS监控和可观测性服务,作为"中央神经系统"
- Sentry:错误追踪平台,错误检测来源之一
- Claude Sonnet 4.6:生成健康摘要
- Triage Engine:错误聚类和打分引擎
- Linear:项目管理工具,自动创建和更新ticket
重要性
自愈闭环解决了AI-First工程中的核心矛盾:构建速度极快但验证滞后。没有自愈闭环,AI生成代码的验证与返工成本将成为新的瓶颈。它是[[verification-and-rework-cost]]的系统性解决方案。