ARC-AGI-3：人类100%满分，而GPT-5、Claude、Grok却集体"翻车"？

2026年3月25日，ARC Prize基金会推出的ARC-AGI-3基准测试在AI圈掀起轩然大波。GPT-5仅得0.26%、Claude 0.25%、Grok直接0%，而旧金山街头随机找来的普通人类测试者却拿到了100%满分。这是史上首个真正交互式的代理智能基准，直指当前前沿大模型的核心痛点：在完全陌生的环境中，没有任何指令、规则或目标提示的情况下，AI能否像人类一样探索、推理、适应并高效完成任务？

本文全面介绍了ARC-AGI-3的来龙去脉、设计理念、评估机制、当前表现、挑战与未来影响。从ARC-AGI-1的静态网格谜题到ARC-AGI-3的主动代理智能跃迁，核心设计围绕四大支柱：探索、世界建模、目标推理、规划与执行。评分机制采用相对人类动作效率（RHAE），以人类首次通关动作数为基准。当前前沿大模型得分均低于2%，而人类轻松获得100%满分，揭示了当前AI在"外推+探索"上的结构性瓶颈。

ARC-AGI-3的重要性在于它直接测试"代理范式"——从指令跟随者到自主探索者的跨越，对AGI路径指引、产业影响、伦理安全具有深远意义。ARC Prize 2026竞赛总奖金超200万美元，要求全开源，鼓励集体智慧攻克这一代理智能的"北极星"基准。