ARC-AGI-3

ARC-AGI-3（Abstraction and Reasoning Corpus for Artificial General Intelligence 3）是ARC Prize基金会于2026年3月25日推出的史上首个真正交互式的代理智能基准测试。它标志着从ARC-AGI-1/2的"被动流体智能"向"主动代理智能"的跃迁。

核心设计

ARC-AGI-3包含数百个原创回合制环境、数千个游戏式关卡，全部由专业人类游戏设计师手工打造。AI代理必须实时探索：每回合接收64x64彩色网格帧（16色），选择动作（离散动作空间，如选中坐标、Undo等），环境即时反馈新帧。无教程、无提示、无目标描述。

基准测试围绕四大核心功能组件设计：

探索（Exploration）：信息不会被动给出，必须主动互动获取
世界建模（Modeling）：从原始观察构建可泛化的内部模型
目标推理（Goal-setting）：无显式指令，靠环境线索自主推断"理想终态"
规划与执行（Planning and Execution）：从当前状态规划动作序列并灵活纠偏

评分机制

采用相对人类动作效率（RHAE）：每关先由10名普通人类测试，取第二好人类首次通关动作数h作为基准。AI动作数a的单关得分：S = min(1, (h/a)^2)，上限100%。环境得分是加权平均，总分是环境均值。

当前表现

人类：100%满分
GPT-5：0.26%
Claude（Opus 4.6）：0.25%
Grok 4.20：0%
Gemini 3.1 Pro：0.37%
OpenAI o3：最高1.69%（5000并行采样）
Kaggle首位：0.50%

意义与影响

ARC-AGI-3直接测试"代理范式"——从指令跟随者（LLM）到自主探索者（AGI）的跨越。它揭示了当前AI在"外推+探索"上的结构性瓶颈，对AGI路径指引、产业影响（机器人、自主Agent、游戏AI、科学发现）、伦理安全具有深远意义。ARC Prize 2026竞赛总奖金超200万美元，要求全开源，被视为代理智能的"北极星"基准。