SkillsBench

SkillsBench

SkillsBench

概述

《SkillsBench》是由BenchFlow团队在2026年2月发布的学术论文,全称为"SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks"。该论文通过对84个跨领域任务的测试,系统评估了AI智能体在拥有"精选技能包"时的执行表现,为"执行商品化"和"判断不可替代性"提供了实证数据支撑。

核心发现

  • 执行商品化:AI智能体在拥有"精选技能包"时,执行成功率平均提升16.2个百分点
  • 判断不可替代性:GPT-5.2和Claude 4.6无法自我生成有效技能,效果几乎为零甚至为负
  • 领域差异显著
    • 医疗领域:+51.9%
    • 制造业领域:+41.9%
    • 软件工程领域:提升幅度相对较小
  • 技能黄金配比
    • 1个技能:+17.8 pp
    • 2-3个技能:+18.6 pp
    • 4个以上技能:+5.9 pp

方法论

论文采用84个跨领域任务作为测试基准,对比AI智能体在无技能包、有精选技能包、以及自我生成技能包三种条件下的执行表现。实验对象包括GPT-5.2和Claude 4.6等主流大语言模型。

启示

  • 拥有深厚"程序性知识"的领域(如医疗、制造业)是AI技能加持效果最显著的方向
  • “少即是多”:深度打磨少数核心技能包比堆砌大量技能更有效
  • 模型无法自我生成高质量的程序性知识,这构成了人类"判断力"的护城河
分享到