ARC-AGI-2 ARC-AGI-2 通用人工智能挑战赛第二代基准测试,用于衡量AI系统的通用智能能力。2026年2月,Google DeepMind的Gemini 3.1 Pro在该基准上取得77.1%的得分,较半年前提升近2.5倍。 测试特点 评估AI的通用推理能力 要求模型处理未见过的视觉推理任务 被视为AGI进展的重要指标 相关实体 [[google-deepmind]] — 取得突破的组织 [[gemini-3-1-pro]] — 取得高分的模型 [[推理时计算扩展]] — 核心改进技术