下一状态信号

下一状态信号

下一状态信号

下一状态信号(Next-State Signals)是[[openclaw-rl]]框架的核心概念,指代理每次动作后,环境返回的任何反馈信息。

定义

每一次代理动作后,世界都会回复一个"下一状态"。这个状态天然包含两类信息:

  • 评估性信号:动作好不好?成功率高低?
  • 指导性信号:下次该怎么改?具体哪里错了?

信号来源

  • 用户回复(如"不对,重来")
  • 工具输出(如API返回结果)
  • 终端错误(如报错日志)
  • GUI状态变化(如点击失败)
  • 测试用例失败
  • 编译错误
  • 代码审查反馈

在OpenClaw-RL中的作用

OpenClaw-RL将下一状态信号同时喂给策略,实现了"边用边学":

  1. PRM Judge从下一状态提取标量奖励(评估性信号)。
  2. OPD算法从下一状态提取文本提示(指导性信号)。
  3. 两者结合,提供比纯标量奖励更丰富的训练信号。

颠覆性意义

传统RL需要预先定义可验证的奖励函数,这在开放式任务中几乎不可能。下一状态信号的概念使得任何交互反馈都能成为训练数据,无需额外标注。

分享到