AI系统评估
AI 系统评估(Evaluation)是从"感觉不错"到"数据说话"的关键方法论。由于 AI 输出本质上是概率性的,不能只靠主观感觉判断系统是否变好,必须建立数据驱动的评估体系。
评估体系组成
- Offline Eval 数据集构建:创建 Golden Dataset 作为基准
- 检索质量指标:Recall、NDCG
- 输出质量评分:LLM-as-Judge、Meta-Evaluation
- 合成数据生成:用于扩展测试覆盖
- Prompt / Pipeline 优化闭环:将"改了一个 prompt"转化为"某项指标提升了 23%"
测试类型
- Golden Dataset 测试
- 一致性测试
- 鲁棒性测试
- 边缘案例测试
与现有维基的连接
评估能力是 [[verification-and-rework-cost]] 中"验证与返工成本"的核心应对手段。该路线图强调,能把评估讲清楚是面试中脱颖而出的关键差异点,也是 [[you-are-not-using-agent-you-are-leading-ai-junior-engineers]] 中管理"AI 初级工程师"团队的核心工具。