并行智能体强化学习 (PARL)
并行智能体强化学习(Parallel-Agent Reinforcement Learning, PARL)是月之暗面(Moonshot AI)披露的核心技术,用于实现智能体集群的真正并行化。
核心思想
PARL通过阶段性奖励建模(Stage-wise Reward Modeling),解决了Agent在面对复杂任务时倾向于退化为"单线程顺序执行"的难题。它强制Agent实现真正的并行化,防止"串行坍缩"。
解决的问题
在传统的Agent系统中,多个Agent在面对复杂任务时往往会退化为串行执行,无法充分利用并行计算的优势。PARL通过精细化的奖励设计,鼓励Agent在任务分解后并行执行子任务。
性能数据
在Office Benchmark测试中,基于PARL的Kimi K2.5能将一个涉及1500次工具调用、100页文档分析的复杂工作流,在效率上提升4.5倍。
相关概念
- [[agent-swarms]] — PARL是实现智能体集群并行化的核心技术
- [[kimi-k2-5]] — 基于PARL的智能体集群模型
- [[月之暗面-moonshot-ai]] — PARL的提出者