基准测试污染

基准测试污染

基准测试污染是指大语言模型通过记忆公开测试集答案来获得高分，导致传统基准测试指标失效的现象。这是当前AI评测领域的核心危机。

关键信息

表现：主流模型在MMLU、GSM8K等传统基准上频频获得接近满分。
后果：指标失效，无法真实反映模型能力。
应对：[[Humanity’s Last Exam]]等新基准的诞生，旨在通过设计AI无法通过记忆回答的难题来终结刷榜游戏。