AI系统评估

AI系统评估

AI系统评估

AI 系统评估(Evaluation)是从"感觉不错"到"数据说话"的关键方法论。由于 AI 输出本质上是概率性的,不能只靠主观感觉判断系统是否变好,必须建立数据驱动的评估体系。

评估体系组成

  • Offline Eval 数据集构建:创建 Golden Dataset 作为基准
  • 检索质量指标:Recall、NDCG
  • 输出质量评分:LLM-as-Judge、Meta-Evaluation
  • 合成数据生成:用于扩展测试覆盖
  • Prompt / Pipeline 优化闭环:将"改了一个 prompt"转化为"某项指标提升了 23%"

测试类型

  • Golden Dataset 测试
  • 一致性测试
  • 鲁棒性测试
  • 边缘案例测试

与现有维基的连接

评估能力是 [[verification-and-rework-cost]] 中"验证与返工成本"的核心应对手段。该路线图强调,能把评估讲清楚是面试中脱颖而出的关键差异点,也是 [[you-are-not-using-agent-you-are-leading-ai-junior-engineers]] 中管理"AI 初级工程师"团队的核心工具。

分享到