过程奖励模型 (PRM)
过程奖励模型(Process Reward Model, PRM)是[[openclaw-rl]]框架中的核心组件,负责实时分析代理的"下一状态"并提取标量奖励信号。
功能
- 对任务执行过程中的中间步骤进行逐步打分,而非只看最终结果。
- 从下一状态(如用户纠正、错误日志、测试失败)提取标量奖励。
- 为OPD算法提供评估性信号基础。
与传统奖励模型的区别
传统奖励模型通常只关注最终结果(成功/失败),而PRM关注过程质量,能够识别中间步骤的正确与错误,从而提供更细粒度的训练信号。
在OpenClaw-RL中的作用
PRM Judge是框架的三个并行组件之一,与推理服务和训练器协同工作,实现异步训练。