SkillsBench

SkillsBench

SkillsBench是BenchFlow团队及其合作机构推出的一个系统性AI智能体技能评估基准。它涵盖11个领域（医疗卫生、制造业、网络安全等），包含84个复杂任务，旨在评估AI智能体在不同任务中应用"技能"的效能。

核心贡献

SkillsBench通过7,308条任务轨迹和5,171次失败分析，揭示了三个关键发现：

人类提供的结构化经验（技能）能显著提升AI智能体表现
当前最先进的大模型无法可靠地自行总结出有效的"工作指南"
“小模型+技能"的组合可以胜过"大模型裸奔”

实验设计

研究者通过三个对照组进行实验：

不提供技能（裸奔）：AI直接面对任务
提供人工精选技能（给说明书）：AI获得人类编写的结构化技能包
让AI自创技能（自悟）：AI在解题前先为自己生成攻略

领域覆盖

SkillsBench涵盖11个领域，包括但不限于：医疗卫生、制造业、金融、网络安全等。其中在医疗卫生（+51.9%）和制造业（+41.9%）领域，技能带来的提升最为显著。

相关链接

[[智能体技能]] — 核心概念：什么是智能体技能
[[benchflow]] — SkillsBench的创建团队
[[过程性知识]] — 技能背后的哲学/技术概念
[[ai-junior-engineer]] — AI Agent作为初级工程师的认知框架
[[工业智能体]] — 技能在工业场景中的应用