SkillsBench
概述
《SkillsBench》是由BenchFlow团队在2026年2月发布的学术论文,全称为"SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks"。该论文通过对84个跨领域任务的测试,系统评估了AI智能体在拥有"精选技能包"时的执行表现,为"执行商品化"和"判断不可替代性"提供了实证数据支撑。
核心发现
- 执行商品化:AI智能体在拥有"精选技能包"时,执行成功率平均提升16.2个百分点
- 判断不可替代性:GPT-5.2和Claude 4.6无法自我生成有效技能,效果几乎为零甚至为负
- 领域差异显著:
- 医疗领域:+51.9%
- 制造业领域:+41.9%
- 软件工程领域:提升幅度相对较小
- 技能黄金配比:
- 1个技能:+17.8 pp
- 2-3个技能:+18.6 pp
- 4个以上技能:+5.9 pp
方法论
论文采用84个跨领域任务作为测试基准,对比AI智能体在无技能包、有精选技能包、以及自我生成技能包三种条件下的执行表现。实验对象包括GPT-5.2和Claude 4.6等主流大语言模型。
启示
- 拥有深厚"程序性知识"的领域(如医疗、制造业)是AI技能加持效果最显著的方向
- “少即是多”:深度打磨少数核心技能包比堆砌大量技能更有效
- 模型无法自我生成高质量的程序性知识,这构成了人类"判断力"的护城河