SkillsBench:评估智能体技能在不同任务中的效能
摘要
SkillsBench是BenchFlow团队及其合作机构发布的一份重磅研究报告,构建了目前最系统的AI智能体"技能"评估体系。该研究通过7,308条任务轨迹和5,171次失败分析,用扎实的数据证明:即便最顶尖的大模型,目前也无法可靠地自行总结出有效的"工作指南"(即技能),人类提供的结构化经验对于提升AI智能体在复杂任务中的表现至关重要。
核心发现
- 人类经验的价值:提供人工精选技能后,平均任务成功率提升16.2个百分点,在医疗(+51.9%)和制造业(+41.9%)领域提升尤为显著。
- 自创技能的失败:让模型自创技能不仅无效,反而导致平均成功率下降1.3个百分点。
- 小模型+技能 > 大模型裸奔:Claude Haiku 4.5(小模型)配合技能后的表现(27.7%)超过了不带技能的Claude Opus 4.5(22.0%)。
方法论
SkillsBench涵盖11个领域(医疗卫生、制造业、网络安全等),包含84个复杂任务。研究者通过三个对照组进行实验:不提供技能(裸奔)、提供人工精选技能(给说明书)、让AI自创技能(自悟)。
技能设计准则
- 2-3个模块最合适,超过4个模块性能下降
- 拒绝"百科全书"式文档,紧凑和详细但侧重流程的技能包表现最好
- 结构化是王道:必须包含具体的步骤、代码示例和验证检查点
失败分析
对5,171次失败的分析显示:
- 质量达标难(49.8%):最常见的失败,AI能跑通流程但结果超出误差范围
- 超时(17.8%):任务太复杂,AI在反复探索中耗尽额度
- 执行错误(17.7%):包括没产出文件或违反格式要求
对工业智能的启示
- 制造业等专业领域更需要结构化技能支持
- 企业应优先投资领域知识库而非单纯追求大模型
- 技能设计需要平衡信息密度和可操作性
- AI在工业场景的成功依赖于人类经验的系统化传承