后见之明引导的在线策略蒸馏 (OPD)

后见之明引导的在线策略蒸馏 (OPD)

后见之明引导的在线策略蒸馏（Hindsight-Guided On-Policy Distillation, OPD）是[[openclaw-rl]]框架的核心算法创新。

核心思想

利用"后见之明"（hindsight），把已经发生的错误转化成精确的、面向未来的训练指导。OPD是on-policy的，实时发生在当前策略上，避免了离线数据分布漂移。

工作原理

评估性部分：用PRM Judge从下一状态提取标量奖励。
指导性部分：从下一状态提取"文本提示"，构建增强的"教师上下文"。
生成token级定向优势监督：直接告诉模型"这里应该输出X而不是Y"。

关键优势

比纯标量奖励更丰富：提供精确的文本指导，而非仅仅一个分数。
实时在线：避免离线数据分布漂移。
从错误中学习：将失败转化为有价值的训练信号。

与传统方法的对比

特性	传统RL	OPD
奖励信号	标量（如+1/-1）	标量+文本指导
监督粒度	动作级	Token级
数据来源	预定义奖励函数	任何下一状态信号
训练方式	离线批量	在线异步

在OpenClaw-RL中的实现

OPD与Binary RL同时运行在训练器中，持续更新策略。消融研究显示，移除OPD后性能下降明显，证明指导性信号比纯标量奖励强大得多。