ARC-AGI-2

ARC-AGI-2

通用人工智能挑战赛第二代基准测试，用于衡量AI系统的通用智能能力。2026年2月，Google DeepMind的Gemini 3.1 Pro在该基准上取得77.1%的得分，较半年前提升近2.5倍。

测试特点

评估AI的通用推理能力
要求模型处理未见过的视觉推理任务
被视为AGI进展的重要指标

相关实体

[[google-deepmind]] — 取得突破的组织
[[gemini-3-1-pro]] — 取得高分的模型
[[推理时计算扩展]] — 核心改进技术