基准测试污染 基准测试污染 基准测试污染是指大语言模型通过记忆公开测试集答案来获得高分,导致传统基准测试指标失效的现象。这是当前AI评测领域的核心危机。 关键信息 表现:主流模型在MMLU、GSM8K等传统基准上频频获得接近满分。 后果:指标失效,无法真实反映模型能力。 应对:[[Humanity’s Last Exam]]等新基准的诞生,旨在通过设计AI无法通过记忆回答的难题来终结刷榜游戏。