Humanity's Last Exam

Humanity’s Last Exam

"人类的终极考试"是一个由近1000名各领域顶尖专家联手推出的新AI基准测试，包含2500个高度专业化的问题。该基准旨在应对主流大语言模型在传统基准测试（如MMLU、GSM8K）上频频获得接近满分、测试集污染和指标失效日益凸显的问题。

关键信息

创建背景：传统基准测试面临严重的测试集污染问题，模型通过记忆公开测试集答案来获得高分。
题目设计：被设计为当前AI即使通过复杂网络搜索也无法轻易作答的难题。
意义：标志着AI评测进入了深水区。模型厂商必须在真实、极端的推理场景中证明其AGI潜力，而不是依赖死记硬背来优化公开榜单。