相对人类动作效率(RHAE)

相对人类动作效率(RHAE)

相对人类动作效率(RHAE)

相对人类动作效率(Relative Human Action Efficiency, RHAE)是ARC-AGI-3基准测试采用的评分机制。与传统的"是否通关"二元评分不同,RHAE衡量AI代理完成任务的效率,与人类基准动作数进行比较。

计算方式

  1. 每关先由10名普通人类(非专家)测试
  2. 取第二好人类首次通关动作数h作为基准
  3. AI动作数a的单关得分:S = min(1, (h/a)^2),上限100%
  4. 环境得分是加权平均(权重随关卡递增),总分是环境均值

设计理念

RHAE评分机制的核心在于:100%意味着AI在每个游戏中都匹配甚至超越人类效率。这惩罚了"刷动作"的低效策略,真正考量智能。它强调的不是"能否通关",而是"能否像人类一样高效地通关",从而更准确地衡量AI的代理智能水平。

分享到