DIVE 证据驱动合成

DIVE 证据驱动合成

由Qwen团队提出的"逆向合成"训练方案，通过先执行现实世界的工具调用痕迹，再反推任务逻辑，实现了"由建设驱动的接地性（Grounding by Construction）"。

核心思想

逆向合成：从执行结果反推任务逻辑，而非从任务逻辑推导执行步骤
由建设驱动的接地性：通过执行真实工具调用来构建任务逻辑，使模型学习更"接地气"
超越传统范式：在9项OOD（分布外）基准测试中，基于该方案训练的8B模型甚至超越了部分70B模型

意义

提供了一种超越传统训练范式的新思路
让小模型通过创新的训练方法获得强大能力
与[[推理侧算力扩展定律]]形成互补：小模型+多步推理+创新训练 = 超越大模型

相关概念

[[qwen团队]] — DIVE研究的提交者
[[推理侧算力扩展定律]] — 解释小模型+多步推理能超越大模型
[[sub-1-bit-llm]] — 模型压缩与推理效率研究