下一状态信号

下一状态信号

下一状态信号（Next-State Signals）是[[openclaw-rl]]框架的核心概念，指代理每次动作后，环境返回的任何反馈信息。

定义

每一次代理动作后，世界都会回复一个"下一状态"。这个状态天然包含两类信息：

评估性信号：动作好不好？成功率高低？
指导性信号：下次该怎么改？具体哪里错了？

信号来源

用户回复（如"不对，重来"）
工具输出（如API返回结果）
终端错误（如报错日志）
GUI状态变化（如点击失败）
测试用例失败
编译错误
代码审查反馈

在OpenClaw-RL中的作用

OpenClaw-RL将下一状态信号同时喂给策略，实现了"边用边学"：

PRM Judge从下一状态提取标量奖励（评估性信号）。
OPD算法从下一状态提取文本提示（指导性信号）。
两者结合，提供比纯标量奖励更丰富的训练信号。

颠覆性意义

传统RL需要预先定义可验证的奖励函数，这在开放式任务中几乎不可能。下一状态信号的概念使得任何交互反馈都能成为训练数据，无需额外标注。