ARC-AGI-2

ARC-AGI-2

ARC-AGI-2

通用人工智能挑战赛第二代基准测试,用于衡量AI系统的通用智能能力。2026年2月,Google DeepMind的Gemini 3.1 Pro在该基准上取得77.1%的得分,较半年前提升近2.5倍。

测试特点

  • 评估AI的通用推理能力
  • 要求模型处理未见过的视觉推理任务
  • 被视为AGI进展的重要指标

相关实体

  • [[google-deepmind]] — 取得突破的组织
  • [[gemini-3-1-pro]] — 取得高分的模型
  • [[推理时计算扩展]] — 核心改进技术
分享到