影子评估
影子评估是cognee-skills框架中的核心评估机制,在评估数据集上并行运行新旧两个版本的技能,以量化改进效果并防止退化。
评估指标
- success_rate(成功率)
- user_satisfaction_score(用户满意度)
- latency(延迟)
- tool_call_accuracy(工具调用准确率)
决策逻辑
- 若新版本提升≥5%且无副作用,则正式commit为v2,并记录rationale
- 失败则自动rollback,保留原始指令永不丢失
价值
影子评估将"Prompt工程"从艺术变成可工程化、可审计、可持续改进的科学。它用数据(成功率)而非模型自身的"论证"来验证技能修正的有效性,是对抗大模型"奉承"和"虚假顿悟"的工程化手段。