SkillsBench

概述

《SkillsBench》是由BenchFlow团队在2026年2月发布的学术论文，全称为"SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks"。该论文通过对84个跨领域任务的测试，系统评估了AI智能体在拥有"精选技能包"时的执行表现，为"执行商品化"和"判断不可替代性"提供了实证数据支撑。

核心发现

执行商品化：AI智能体在拥有"精选技能包"时，执行成功率平均提升16.2个百分点
判断不可替代性：GPT-5.2和Claude 4.6无法自我生成有效技能，效果几乎为零甚至为负
领域差异显著：
- 医疗领域：+51.9%
- 制造业领域：+41.9%
- 软件工程领域：提升幅度相对较小
技能黄金配比：
- 1个技能：+17.8 pp
- 2-3个技能：+18.6 pp
- 4个以上技能：+5.9 pp

方法论

论文采用84个跨领域任务作为测试基准，对比AI智能体在无技能包、有精选技能包、以及自我生成技能包三种条件下的执行表现。实验对象包括GPT-5.2和Claude 4.6等主流大语言模型。

启示

拥有深厚"程序性知识"的领域（如医疗、制造业）是AI技能加持效果最显著的方向
“少即是多”：深度打磨少数核心技能包比堆砌大量技能更有效
模型无法自我生成高质量的程序性知识，这构成了人类"判断力"的护城河