数据污染 (AI基准测试)
数据污染(Data Contamination)是指测试集中的题目或类似题目出现在模型的训练数据中,导致模型在测试时的高分是"记住答案"而非"学会推理"的结果。这是旧有数学基准测试的致命缺陷。
MathNet的应对策略
MathNet通过以下设计显著降低了数据污染风险:
- 全球化采样: 覆盖47个国家,避免单一文化训练套路
- 多语言: 覆盖17种语言,降低语言偏见
- 长时间跨度: 覆盖40多年竞赛材料,增加数据多样性
- 大规模: 约3万道题,使模型难以通过记忆所有题目来获得高分
行业影响
MathNet的出现使行业更难继续靠少数"明星题目"讲故事。当题库足够大、足够分散、足够多语言、足够跨年代时,模型到底有没有真实抽象能力,就更容易暴露出来。这推动行业从"谁能在小而熟的测试集上拿高分"转向"谁能在全球化、多语言、多模态、长时间跨度、低污染的数据环境里保持稳定推理能力"。