MathNet
MathNet是由MIT CSAIL与国际数学奥林匹克(IMO)体系相关团队联合发布的全球最大奥数级数学题与解答数据集。它覆盖47个国家、17种语言、40多年竞赛材料,包含约3万道Olympiad级问题及对齐后的题面、自然语言解答、LaTeX表述和元数据。
核心特征
- 规模: 比以往主流奥数级数据集大约5倍,约3万道题
- 全球化: 覆盖47个国家、17种语言、40多年竞赛材料
- 多模态: 同时包含文本与图像形式的问题和解答
- 元数据丰富: 包含多维元数据,支持检索增强推理
意义与影响
MathNet的设计哲学是降低数据污染和单一文化偏见,推动行业从"在小而熟的测试集上拿高分"转向"在全球化、多语言、低污染环境中保持稳定推理"。它被视为下一代数学推理评测基础设施的潜在底座,对AI教育产品、检索增强推理系统和AI for Science领域均有重要价值。
与现有维基的连接
- 强化了[[大模型不是真理机器-而是论证机器]]的观点,即模型擅长"把看起来像推理的话说得很像推理",MathNet是揭露这种"论证机器"本质的工具
- 为[[工业智能算网]]、[[AI for Science]]等概念提供了新的、具体的应用场景和测试基准
- 对现有AI数学能力的"幻觉高分"提出了挑战,暗示许多公开的benchmark成绩可能因数据污染而不可靠