并行智能体强化学习 (PARL)

并行智能体强化学习 (PARL)

并行智能体强化学习（Parallel-Agent Reinforcement Learning, PARL）是月之暗面（Moonshot AI）披露的核心技术，用于实现智能体集群的真正并行化。

核心思想

PARL通过阶段性奖励建模（Stage-wise Reward Modeling），解决了Agent在面对复杂任务时倾向于退化为"单线程顺序执行"的难题。它强制Agent实现真正的并行化，防止"串行坍缩"。

解决的问题

在传统的Agent系统中，多个Agent在面对复杂任务时往往会退化为串行执行，无法充分利用并行计算的优势。PARL通过精细化的奖励设计，鼓励Agent在任务分解后并行执行子任务。

性能数据

在Office Benchmark测试中，基于PARL的Kimi K2.5能将一个涉及1500次工具调用、100页文档分析的复杂工作流，在效率上提升4.5倍。

相关概念

[[agent-swarms]] — PARL是实现智能体集群并行化的核心技术
[[kimi-k2-5]] — 基于PARL的智能体集群模型
[[月之暗面-moonshot-ai]] — PARL的提出者