智能体技能
智能体技能(Agent Skills)是一套结构化的、可复用的"过程性知识"包,包含指令、代码模板、参考资源和验证逻辑,用于指导AI完成特定领域任务。它不同于简单的提示词(Prompt)或海量的检索增强生成(RAG)数据,而是告诉AI面对某种特定任务时的标准操作流程(SOP)和常见陷阱。
模型-框架-技能架构类比
SkillsBench提出了一个极具启发性的架构类比:
- 模型(Models):相当于CPU,提供基础的逻辑推理和通用能力
- 智能体框架(Agent Harnesses):如Claude Code或Gemini CLI,相当于操作系统,负责环境管理和工具调用
- 技能(Skills):相当于应用程序,是专门为解决特定领域问题而打包的"过程性知识"
技能设计准则
根据SkillsBench的研究,高质量技能的设计应遵循以下准则:
- 2-3个模块最合适:超过4个模块时性能反而下降,过多的信息会造成"认知负荷"
- 拒绝"百科全书"式文档:紧凑(Compact)和详细但侧重流程(Detailed)的技能包表现最好
- 结构化是王道:必须包含具体的步骤、代码示例和验证检查点
技能的价值
SkillsBench的实验证明:
- 提供人工精选技能后,平均任务成功率提升16.2个百分点
- 在医疗(+51.9%)和制造业(+41.9%)领域提升尤为显著
- “小模型+技能”(Claude Haiku 4.5,27.7%)胜过"大模型裸奔"(Claude Opus 4.5,22.0%)
自创技能的局限性
当前最先进的大模型无法可靠地自行总结出有效的"工作指南"。让模型自创技能不仅无效,反而导致平均成功率下降1.3个百分点。模型往往能意识到需要哪些知识,但它们生成的流程要么太笼统,要么在关键的API细节上出现偏差。
相关链接
- [[skillsbench]] — 评估智能体技能的基准测试
- [[过程性知识]] — 技能背后的哲学/技术概念
- [[ai-junior-engineer]] — AI Agent作为初级工程师的认知框架
- [[context-engineering]] — 技能包作为高级上下文管理技术
- [[工业智能体]] — 技能在工业场景中的应用