后见之明引导的在线策略蒸馏 (OPD)

后见之明引导的在线策略蒸馏 (OPD)

后见之明引导的在线策略蒸馏 (OPD)

后见之明引导的在线策略蒸馏(Hindsight-Guided On-Policy Distillation, OPD)是[[openclaw-rl]]框架的核心算法创新。

核心思想

利用"后见之明"(hindsight),把已经发生的错误转化成精确的、面向未来的训练指导。OPD是on-policy的,实时发生在当前策略上,避免了离线数据分布漂移。

工作原理

  1. 评估性部分:用PRM Judge从下一状态提取标量奖励。
  2. 指导性部分:从下一状态提取"文本提示",构建增强的"教师上下文"。
  3. 生成token级定向优势监督:直接告诉模型"这里应该输出X而不是Y"。

关键优势

  • 比纯标量奖励更丰富:提供精确的文本指导,而非仅仅一个分数。
  • 实时在线:避免离线数据分布漂移。
  • 从错误中学习:将失败转化为有价值的训练信号。

与传统方法的对比

特性 传统RL OPD
奖励信号 标量(如+1/-1) 标量+文本指导
监督粒度 动作级 Token级
数据来源 预定义奖励函数 任何下一状态信号
训练方式 离线批量 在线异步

在OpenClaw-RL中的实现

OPD与Binary RL同时运行在训练器中,持续更新策略。消融研究显示,移除OPD后性能下降明显,证明指导性信号比纯标量奖励强大得多。

分享到