DIVE 证据驱动合成
由Qwen团队提出的"逆向合成"训练方案,通过先执行现实世界的工具调用痕迹,再反推任务逻辑,实现了"由建设驱动的接地性(Grounding by Construction)"。
核心思想
- 逆向合成:从执行结果反推任务逻辑,而非从任务逻辑推导执行步骤
- 由建设驱动的接地性:通过执行真实工具调用来构建任务逻辑,使模型学习更"接地气"
- 超越传统范式:在9项OOD(分布外)基准测试中,基于该方案训练的8B模型甚至超越了部分70B模型
意义
- 提供了一种超越传统训练范式的新思路
- 让小模型通过创新的训练方法获得强大能力
- 与[[推理侧算力扩展定律]]形成互补:小模型+多步推理+创新训练 = 超越大模型
相关概念
- [[qwen团队]] — DIVE研究的提交者
- [[推理侧算力扩展定律]] — 解释小模型+多步推理能超越大模型
- [[sub-1-bit-llm]] — 模型压缩与推理效率研究