ARC-AGI-3:人类100%满分,而GPT-5、Claude、Grok却集体"翻车"?

ARC-AGI-3:人类100%满分,而GPT-5、Claude、Grok却集体"翻车"?

ARC-AGI-3:人类100%满分,而GPT-5、Claude、Grok却集体"翻车"?

2026年3月25日,ARC Prize基金会推出的ARC-AGI-3基准测试在AI圈掀起轩然大波。GPT-5仅得0.26%、Claude 0.25%、Grok直接0%,而旧金山街头随机找来的普通人类测试者却拿到了100%满分。这是史上首个真正交互式的代理智能基准,直指当前前沿大模型的核心痛点:在完全陌生的环境中,没有任何指令、规则或目标提示的情况下,AI能否像人类一样探索、推理、适应并高效完成任务?

本文全面介绍了ARC-AGI-3的来龙去脉、设计理念、评估机制、当前表现、挑战与未来影响。从ARC-AGI-1的静态网格谜题到ARC-AGI-3的主动代理智能跃迁,核心设计围绕四大支柱:探索、世界建模、目标推理、规划与执行。评分机制采用相对人类动作效率(RHAE),以人类首次通关动作数为基准。当前前沿大模型得分均低于2%,而人类轻松获得100%满分,揭示了当前AI在"外推+探索"上的结构性瓶颈。

ARC-AGI-3的重要性在于它直接测试"代理范式"——从指令跟随者到自主探索者的跨越,对AGI路径指引、产业影响、伦理安全具有深远意义。ARC Prize 2026竞赛总奖金超200万美元,要求全开源,鼓励集体智慧攻克这一代理智能的"北极星"基准。

分享到