相对人类动作效率(RHAE)
相对人类动作效率(Relative Human Action Efficiency, RHAE)是ARC-AGI-3基准测试采用的评分机制。与传统的"是否通关"二元评分不同,RHAE衡量AI代理完成任务的效率,与人类基准动作数进行比较。
计算方式
- 每关先由10名普通人类(非专家)测试
- 取第二好人类首次通关动作数h作为基准
- AI动作数a的单关得分:S = min(1, (h/a)^2),上限100%
- 环境得分是加权平均(权重随关卡递增),总分是环境均值
设计理念
RHAE评分机制的核心在于:100%意味着AI在每个游戏中都匹配甚至超越人类效率。这惩罚了"刷动作"的低效策略,真正考量智能。它强调的不是"能否通关",而是"能否像人类一样高效地通关",从而更准确地衡量AI的代理智能水平。