ARC-AGI-3

ARC-AGI-3

ARC-AGI-3

ARC-AGI-3(Abstraction and Reasoning Corpus for Artificial General Intelligence 3)是ARC Prize基金会于2026年3月25日推出的史上首个真正交互式的代理智能基准测试。它标志着从ARC-AGI-1/2的"被动流体智能"向"主动代理智能"的跃迁。

核心设计

ARC-AGI-3包含数百个原创回合制环境、数千个游戏式关卡,全部由专业人类游戏设计师手工打造。AI代理必须实时探索:每回合接收64x64彩色网格帧(16色),选择动作(离散动作空间,如选中坐标、Undo等),环境即时反馈新帧。无教程、无提示、无目标描述。

基准测试围绕四大核心功能组件设计:

  1. 探索(Exploration):信息不会被动给出,必须主动互动获取
  2. 世界建模(Modeling):从原始观察构建可泛化的内部模型
  3. 目标推理(Goal-setting):无显式指令,靠环境线索自主推断"理想终态"
  4. 规划与执行(Planning and Execution):从当前状态规划动作序列并灵活纠偏

评分机制

采用相对人类动作效率(RHAE):每关先由10名普通人类测试,取第二好人类首次通关动作数h作为基准。AI动作数a的单关得分:S = min(1, (h/a)^2),上限100%。环境得分是加权平均,总分是环境均值。

当前表现

  • 人类:100%满分
  • GPT-5:0.26%
  • Claude(Opus 4.6):0.25%
  • Grok 4.20:0%
  • Gemini 3.1 Pro:0.37%
  • OpenAI o3:最高1.69%(5000并行采样)
  • Kaggle首位:0.50%

意义与影响

ARC-AGI-3直接测试"代理范式"——从指令跟随者(LLM)到自主探索者(AGI)的跨越。它揭示了当前AI在"外推+探索"上的结构性瓶颈,对AGI路径指引、产业影响(机器人、自主Agent、游戏AI、科学发现)、伦理安全具有深远意义。ARC Prize 2026竞赛总奖金超200万美元,要求全开源,被视为代理智能的"北极星"基准。

分享到