后见之明引导的在线策略蒸馏 (OPD)
后见之明引导的在线策略蒸馏(Hindsight-Guided On-Policy Distillation, OPD)是[[openclaw-rl]]框架的核心算法创新。
核心思想
利用"后见之明"(hindsight),把已经发生的错误转化成精确的、面向未来的训练指导。OPD是on-policy的,实时发生在当前策略上,避免了离线数据分布漂移。
工作原理
- 评估性部分:用PRM Judge从下一状态提取标量奖励。
- 指导性部分:从下一状态提取"文本提示",构建增强的"教师上下文"。
- 生成token级定向优势监督:直接告诉模型"这里应该输出X而不是Y"。
关键优势
- 比纯标量奖励更丰富:提供精确的文本指导,而非仅仅一个分数。
- 实时在线:避免离线数据分布漂移。
- 从错误中学习:将失败转化为有价值的训练信号。
与传统方法的对比
| 特性 | 传统RL | OPD |
|---|---|---|
| 奖励信号 | 标量(如+1/-1) | 标量+文本指导 |
| 监督粒度 | 动作级 | Token级 |
| 数据来源 | 预定义奖励函数 | 任何下一状态信号 |
| 训练方式 | 离线批量 | 在线异步 |
在OpenClaw-RL中的实现
OPD与Binary RL同时运行在训练器中,持续更新策略。消融研究显示,移除OPD后性能下降明显,证明指导性信号比纯标量奖励强大得多。