影子评估

影子评估

影子评估

影子评估是cognee-skills框架中的核心评估机制,在评估数据集上并行运行新旧两个版本的技能,以量化改进效果并防止退化。

评估指标

  • success_rate(成功率)
  • user_satisfaction_score(用户满意度)
  • latency(延迟)
  • tool_call_accuracy(工具调用准确率)

决策逻辑

  • 若新版本提升≥5%且无副作用,则正式commit为v2,并记录rationale
  • 失败则自动rollback,保留原始指令永不丢失

价值

影子评估将"Prompt工程"从艺术变成可工程化、可审计、可持续改进的科学。它用数据(成功率)而非模型自身的"论证"来验证技能修正的有效性,是对抗大模型"奉承"和"虚假顿悟"的工程化手段。

分享到