过程奖励
过程奖励(Process Rewards)是一种对任务执行过程中的中间步骤进行打分的奖励机制,而非只看最终结果。
与传统奖励的区别
| 特性 | 传统结果奖励 | 过程奖励 |
|---|---|---|
| 评估对象 | 最终结果 | 中间步骤 |
| 粒度 | 粗粒度 | 细粒度 |
| 反馈时机 | 任务结束时 | 每一步 |
| 信息量 | 低 | 高 |
在OpenClaw-RL中的应用
[[openclaw-rl]]利用过程奖励模型(PRM)对代理的每一步操作进行逐步打分:
- 终端输出是否正确
- 测试用例是否通过
- 用户反馈是否正面
优势
- 提供更丰富的训练信号
- 帮助代理在复杂任务中优化中间步骤
- 减少"运气好"导致的虚假成功
与OPD的关系
过程奖励为[[后见之明引导的在线策略蒸馏]]提供评估性信号基础,两者结合实现比纯标量奖励更有效的训练。