ARC-AGI-3
ARC-AGI-3(Abstraction and Reasoning Corpus for Artificial General Intelligence 3)是ARC Prize基金会于2026年3月25日推出的史上首个真正交互式的代理智能基准测试。它标志着从ARC-AGI-1/2的"被动流体智能"向"主动代理智能"的跃迁。
核心设计
ARC-AGI-3包含数百个原创回合制环境、数千个游戏式关卡,全部由专业人类游戏设计师手工打造。AI代理必须实时探索:每回合接收64x64彩色网格帧(16色),选择动作(离散动作空间,如选中坐标、Undo等),环境即时反馈新帧。无教程、无提示、无目标描述。
基准测试围绕四大核心功能组件设计:
- 探索(Exploration):信息不会被动给出,必须主动互动获取
- 世界建模(Modeling):从原始观察构建可泛化的内部模型
- 目标推理(Goal-setting):无显式指令,靠环境线索自主推断"理想终态"
- 规划与执行(Planning and Execution):从当前状态规划动作序列并灵活纠偏
评分机制
采用相对人类动作效率(RHAE):每关先由10名普通人类测试,取第二好人类首次通关动作数h作为基准。AI动作数a的单关得分:S = min(1, (h/a)^2),上限100%。环境得分是加权平均,总分是环境均值。
当前表现
- 人类:100%满分
- GPT-5:0.26%
- Claude(Opus 4.6):0.25%
- Grok 4.20:0%
- Gemini 3.1 Pro:0.37%
- OpenAI o3:最高1.69%(5000并行采样)
- Kaggle首位:0.50%
意义与影响
ARC-AGI-3直接测试"代理范式"——从指令跟随者(LLM)到自主探索者(AGI)的跨越。它揭示了当前AI在"外推+探索"上的结构性瓶颈,对AGI路径指引、产业影响(机器人、自主Agent、游戏AI、科学发现)、伦理安全具有深远意义。ARC Prize 2026竞赛总奖金超200万美元,要求全开源,被视为代理智能的"北极星"基准。