AI系统评估

AI 系统评估（Evaluation）是从"感觉不错"到"数据说话"的关键方法论。由于 AI 输出本质上是概率性的，不能只靠主观感觉判断系统是否变好，必须建立数据驱动的评估体系。

评估体系组成

Offline Eval 数据集构建：创建 Golden Dataset 作为基准
检索质量指标：Recall、NDCG
输出质量评分：LLM-as-Judge、Meta-Evaluation
合成数据生成：用于扩展测试覆盖
Prompt / Pipeline 优化闭环：将"改了一个 prompt"转化为"某项指标提升了 23%"

测试类型

Golden Dataset 测试
一致性测试
鲁棒性测试
边缘案例测试

与现有维基的连接

评估能力是 [[verification-and-rework-cost]] 中"验证与返工成本"的核心应对手段。该路线图强调，能把评估讲清楚是面试中脱颖而出的关键差异点，也是 [[you-are-not-using-agent-you-are-leading-ai-junior-engineers]] 中管理"AI 初级工程师"团队的核心工具。