BenchFlow团队
BenchFlow团队是SkillsBench基准测试的创建者,一个专注于AI智能体评估的研究团队。他们与合作机构共同发布了《SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks》研究报告,构建了目前最系统的AI智能体"技能"评估体系。
主要贡献
- 提出了"模型-框架-技能"架构类比,将AI系统类比为计算机系统
- 构建了涵盖11个领域、84个复杂任务的SkillsBench基准测试
- 通过7,308条任务轨迹和5,171次失败分析,验证了人类经验对AI智能体的关键价值
- 总结出了高质量技能的设计准则
相关链接
- [[skillsbench]] — BenchFlow团队创建的核心基准测试
- [[智能体技能]] — 核心概念:什么是智能体技能