延迟预算

延迟预算

概述

延迟预算是在设计多步骤AI工作流时，对每一步的延迟进行规划和限制的设计约束。它是AI系统五层架构中编排层的关键设计考量。

核心问题

一次LLM调用需要1-5秒
一个包含5次串行调用的多Agent管道需要5-25秒
用户在3秒后就会失去耐心

设计原则

从第一天起就设计并行化：哪些调用可以同时进行？
对每一步设置延迟上限
在延迟和准确性之间做权衡
使用缓存和预计算减少延迟

与模型路由的关系

模型路由可以通过选择更快的轻量级模型来帮助控制延迟预算，但需要在成本和准确性之间做平衡。