基准测试污染 article https://gyznsw.cn/knowledge/wiki/concepts/%E5%9F%BA%E5%87%86%E6%B5%8B%E8%AF%95%E6%B1%A1%E6%9F%93.html 基准测试污染 基准测试污染是指大语言模型通过记忆公开测试集答案来获得高分,导致传统基准测试指标失效的现象。这是当前AI评测领域的核心危机。 关键信息 表现:主流模型在MMLU、GSM8K等传统基准上频频获得接近满分。 后果:指标失效,无法真实反映模型能力。 应对:[[Humanity’s Last Exam]]等新基准的诞生,旨在通过设计AI无法通过记忆回答的难题来终结刷榜游戏。