延迟预算

延迟预算

延迟预算

概述

延迟预算是在设计多步骤AI工作流时,对每一步的延迟进行规划和限制的设计约束。它是AI系统五层架构中编排层的关键设计考量。

核心问题

  • 一次LLM调用需要1-5秒
  • 一个包含5次串行调用的多Agent管道需要5-25秒
  • 用户在3秒后就会失去耐心

设计原则

  • 从第一天起就设计并行化:哪些调用可以同时进行?
  • 对每一步设置延迟上限
  • 在延迟和准确性之间做权衡
  • 使用缓存和预计算减少延迟

与模型路由的关系

模型路由可以通过选择更快的轻量级模型来帮助控制延迟预算,但需要在成本和准确性之间做平衡。

分享到