下一状态信号
下一状态信号(Next-State Signals)是[[openclaw-rl]]框架的核心概念,指代理每次动作后,环境返回的任何反馈信息。
定义
每一次代理动作后,世界都会回复一个"下一状态"。这个状态天然包含两类信息:
- 评估性信号:动作好不好?成功率高低?
- 指导性信号:下次该怎么改?具体哪里错了?
信号来源
- 用户回复(如"不对,重来")
- 工具输出(如API返回结果)
- 终端错误(如报错日志)
- GUI状态变化(如点击失败)
- 测试用例失败
- 编译错误
- 代码审查反馈
在OpenClaw-RL中的作用
OpenClaw-RL将下一状态信号同时喂给策略,实现了"边用边学":
- PRM Judge从下一状态提取标量奖励(评估性信号)。
- OPD算法从下一状态提取文本提示(指导性信号)。
- 两者结合,提供比纯标量奖励更丰富的训练信号。
颠覆性意义
传统RL需要预先定义可验证的奖励函数,这在开放式任务中几乎不可能。下一状态信号的概念使得任何交互反馈都能成为训练数据,无需额外标注。