过程奖励模型 (PRM)

过程奖励模型 (PRM)

过程奖励模型（Process Reward Model, PRM）是[[openclaw-rl]]框架中的核心组件，负责实时分析代理的"下一状态"并提取标量奖励信号。

功能

对任务执行过程中的中间步骤进行逐步打分，而非只看最终结果。
从下一状态（如用户纠正、错误日志、测试失败）提取标量奖励。
为OPD算法提供评估性信号基础。

与传统奖励模型的区别

传统奖励模型通常只关注最终结果（成功/失败），而PRM关注过程质量，能够识别中间步骤的正确与错误，从而提供更细粒度的训练信号。

在OpenClaw-RL中的作用

PRM Judge是框架的三个并行组件之一，与推理服务和训练器协同工作，实现异步训练。