ChemEval
定义
ChemEval是全球首个从化学研究者视角出发的四层递进式评测基准,由认知智能全国重点实验室联合中国科学技术大学陈恩红教授团队与科大讯飞AI for Science团队在ICLR 2026上发表。
核心结构
ChemEval涵盖四个层级:
- 基础知识:化学领域的基础知识评测
- 文献信息抽取:从化学文献中提取关键信息的能力
- 分子层级理解:对分子结构和性质的理解
- 科学推理推断:基于化学知识的推理和推断能力
意义
- 系统性地揭示了现有大模型在化学领域的真实能力边界
- 为AI驱动的新材料发现和反应预测提供了重要的"量尺"
- 揭示了通用大模型在高度专业化科学研究中的"幻觉"问题
相关概念
- [[AI for Science]]
- [[SAGE架构]]