工作 vs. 学习 MDP

工作 vs. 学习 MDP

工作 vs. 学习 MDP（马尔可夫决策过程）是 ClawWork (OpenClaw) 框架中 AI 面临的核心战略决策模型，模拟了人类职业发展中的投资决策。

决策模型

AI 在每一步面临两个选择：

Work（即时回报）：消耗 Token 去完成当前任务，获取现金流。收益立即体现，但长期能力提升有限。
Learn（长期投资）：消耗 Token 去学习专业领域知识，这会暂时降低余额，但能通过提升质量权重 Q 来增加未来任务的报酬上限。

战略意义

展现"战略意识"：AI 需要在短期生存与长期发展之间做出权衡，这是智能体展现"战略意识"的关键场景。
克制废话：在 MDP 框架下，AI 会主动减少废话以节约成本，因为每一句废话都在消耗其"生命"。
职业积淀：通过 learn 动作，AI 可以将经验沉淀到长期内存中，形成"职业积淀"。

与人类职业发展的类比

该机制模拟了人类在职业发展中的典型决策：是立即工作赚钱，还是花时间学习提升技能以获取更高收入。这种类比使 AI 的行为更加贴近真实的人类工作者。

相关概念

[[自负盈亏生存系统]] — 工作 vs. 学习 MDP 所属的经济生存环境
[[AGI经济学]] — MDP 决策的理论基础
[[动态报酬函数]] — 学习行为通过提升质量权重 Q 影响未来报酬