SkillsBench：评估智能体技能在不同任务中的效能

摘要

SkillsBench是BenchFlow团队及其合作机构发布的一份重磅研究报告，构建了目前最系统的AI智能体"技能"评估体系。该研究通过7,308条任务轨迹和5,171次失败分析，用扎实的数据证明：即便最顶尖的大模型，目前也无法可靠地自行总结出有效的"工作指南"（即技能），人类提供的结构化经验对于提升AI智能体在复杂任务中的表现至关重要。

核心发现

人类经验的价值：提供人工精选技能后，平均任务成功率提升16.2个百分点，在医疗（+51.9%）和制造业（+41.9%）领域提升尤为显著。
自创技能的失败：让模型自创技能不仅无效，反而导致平均成功率下降1.3个百分点。
小模型+技能 > 大模型裸奔：Claude Haiku 4.5（小模型）配合技能后的表现（27.7%）超过了不带技能的Claude Opus 4.5（22.0%）。

方法论

SkillsBench涵盖11个领域（医疗卫生、制造业、网络安全等），包含84个复杂任务。研究者通过三个对照组进行实验：不提供技能（裸奔）、提供人工精选技能（给说明书）、让AI自创技能（自悟）。

技能设计准则

2-3个模块最合适，超过4个模块性能下降
拒绝"百科全书"式文档，紧凑和详细但侧重流程的技能包表现最好
结构化是王道：必须包含具体的步骤、代码示例和验证检查点

失败分析

对5,171次失败的分析显示：

质量达标难（49.8%）：最常见的失败，AI能跑通流程但结果超出误差范围
超时（17.8%）：任务太复杂，AI在反复探索中耗尽额度
执行错误（17.7%）：包括没产出文件或违反格式要求

对工业智能的启示

制造业等专业领域更需要结构化技能支持
企业应优先投资领域知识库而非单纯追求大模型
技能设计需要平衡信息密度和可操作性
AI在工业场景的成功依赖于人类经验的系统化传承