过程奖励

过程奖励

过程奖励

过程奖励(Process Rewards)是一种对任务执行过程中的中间步骤进行打分的奖励机制,而非只看最终结果。

与传统奖励的区别

特性 传统结果奖励 过程奖励
评估对象 最终结果 中间步骤
粒度 粗粒度 细粒度
反馈时机 任务结束时 每一步
信息量

在OpenClaw-RL中的应用

[[openclaw-rl]]利用过程奖励模型(PRM)对代理的每一步操作进行逐步打分:

  • 终端输出是否正确
  • 测试用例是否通过
  • 用户反馈是否正面

优势

  • 提供更丰富的训练信号
  • 帮助代理在复杂任务中优化中间步骤
  • 减少"运气好"导致的虚假成功

与OPD的关系

过程奖励为[[后见之明引导的在线策略蒸馏]]提供评估性信号基础,两者结合实现比纯标量奖励更有效的训练。

分享到