过程奖励

过程奖励

过程奖励（Process Rewards）是一种对任务执行过程中的中间步骤进行打分的奖励机制，而非只看最终结果。

与传统奖励的区别

特性	传统结果奖励	过程奖励
评估对象	最终结果	中间步骤
粒度	粗粒度	细粒度
反馈时机	任务结束时	每一步
信息量	低	高

在OpenClaw-RL中的应用

[[openclaw-rl]]利用过程奖励模型（PRM）对代理的每一步操作进行逐步打分：

终端输出是否正确
测试用例是否通过
用户反馈是否正面

优势

提供更丰富的训练信号
帮助代理在复杂任务中优化中间步骤
减少"运气好"导致的虚假成功

与OPD的关系

过程奖励为[[后见之明引导的在线策略蒸馏]]提供评估性信号基础，两者结合实现比纯标量奖励更有效的训练。