SkillsBench
SkillsBench是BenchFlow团队及其合作机构推出的一个系统性AI智能体技能评估基准。它涵盖11个领域(医疗卫生、制造业、网络安全等),包含84个复杂任务,旨在评估AI智能体在不同任务中应用"技能"的效能。
核心贡献
SkillsBench通过7,308条任务轨迹和5,171次失败分析,揭示了三个关键发现:
- 人类提供的结构化经验(技能)能显著提升AI智能体表现
- 当前最先进的大模型无法可靠地自行总结出有效的"工作指南"
- “小模型+技能"的组合可以胜过"大模型裸奔”
实验设计
研究者通过三个对照组进行实验:
- 不提供技能(裸奔):AI直接面对任务
- 提供人工精选技能(给说明书):AI获得人类编写的结构化技能包
- 让AI自创技能(自悟):AI在解题前先为自己生成攻略
领域覆盖
SkillsBench涵盖11个领域,包括但不限于:医疗卫生、制造业、金融、网络安全等。其中在医疗卫生(+51.9%)和制造业(+41.9%)领域,技能带来的提升最为显著。
相关链接
- [[智能体技能]] — 核心概念:什么是智能体技能
- [[benchflow]] — SkillsBench的创建团队
- [[过程性知识]] — 技能背后的哲学/技术概念
- [[ai-junior-engineer]] — AI Agent作为初级工程师的认知框架
- [[工业智能体]] — 技能在工业场景中的应用