0
ARC-AGI-3:人类100%满分,而GPT-5、Claude、Grok却集体"翻车"?
2026年3月25日,ARC Prize基金会推出的ARC-AGI-3基准测试在AI圈掀起轩然大波。GPT-5仅得0.26%、Claude 0.25%、Grok直接0%,而普通人类测试者却拿到了100%满分。这是史上首个真正交互式的代理智能基准,直指当前前沿大模型的核心痛点。
2026年3月25日,ARC Prize基金会推出的ARC-AGI-3基准测试在AI圈掀起轩然大波。GPT-5仅得0.26%、Claude 0.25%、Grok直接0%,而普通人类测试者却拿到了100%满分。这是史上首个真正交互式的代理智能基准,直指当前前沿大模型的核心痛点。