Humanity's Last Exam

Humanity's Last Exam

Humanity’s Last Exam

"人类的终极考试"是一个由近1000名各领域顶尖专家联手推出的新AI基准测试,包含2500个高度专业化的问题。该基准旨在应对主流大语言模型在传统基准测试(如MMLU、GSM8K)上频频获得接近满分、测试集污染和指标失效日益凸显的问题。

关键信息

  • 创建背景:传统基准测试面临严重的测试集污染问题,模型通过记忆公开测试集答案来获得高分。
  • 题目设计:被设计为当前AI即使通过复杂网络搜索也无法轻易作答的难题。
  • 意义:标志着AI评测进入了深水区。模型厂商必须在真实、极端的推理场景中证明其AGI潜力,而不是依赖死记硬背来优化公开榜单。
分享到