MARCH:多跳推理中的歧义解释

MARCH:多跳推理中的歧义解释

MARCH:多跳推理中的歧义解释

MARCH基准(arXiv:2509.22750, 2026年3月更新)专注于"多跳推理中的歧义解释",训练模型学会在执行前先"反问"用户以消除歧义。

技术背景

  • 传统LLM在面对语义模糊的复杂指令时,往往会选择"瞎猜"或提供泛泛而谈的答案
  • MARCH通过CLARION代理框架,训练模型学会在执行前先"反问"用户以消除歧义

关键发现

  • 即便最先进的模型(如GPT-5.3)在未经专项训练时,处理复杂模糊任务的成功率也仅为42%
  • 为下一代Agent的"主动沟通"模块指明了研发方向

相关实体

  • [[gpt-5.3]] — 在MARCH中表现不佳的模型
  • [[多跳推理中的歧义解释]] — 相关概念
分享到