Evals（评估集）

Evals（评估集）

用于量化 AI 模型在特定场景下表现的高质量测试用例集。Cat Wu 认为 Evals 是 AI 时代 PM 最核心的基础技能，取代了传统的 PRD。

核心观点

你不需要写几百个 Evals，哪怕只有 10 个极其精准、高质量的 Evals，也足以量化团队的目标、衡量模型的进展，并直观地暴露缺陷。
编写 Evals 本质上就是以机器可读、可测试的方式，在撰写新时代的"需求文档"。
Evals 是 AI 时代产品经理最核心的基础技能之一。

与现有维基的连接

本文深化了 [[Evals]] 作为 PM 核心技能的理解，强调其作为"AI 时代 PRD"的核心地位，并引用 Cat Wu 的"10 个高质量 Evals"观点。