过程奖励模型 (PRM)

过程奖励模型 (PRM)

过程奖励模型 (PRM)

过程奖励模型(Process Reward Model, PRM)是[[openclaw-rl]]框架中的核心组件,负责实时分析代理的"下一状态"并提取标量奖励信号。

功能

  • 对任务执行过程中的中间步骤进行逐步打分,而非只看最终结果。
  • 从下一状态(如用户纠正、错误日志、测试失败)提取标量奖励。
  • 为OPD算法提供评估性信号基础。

与传统奖励模型的区别

传统奖励模型通常只关注最终结果(成功/失败),而PRM关注过程质量,能够识别中间步骤的正确与错误,从而提供更细粒度的训练信号。

在OpenClaw-RL中的作用

PRM Judge是框架的三个并行组件之一,与推理服务和训练器协同工作,实现异步训练。

分享到