延迟预算 延迟预算 概述 延迟预算是在设计多步骤AI工作流时,对每一步的延迟进行规划和限制的设计约束。它是AI系统五层架构中编排层的关键设计考量。 核心问题 一次LLM调用需要1-5秒 一个包含5次串行调用的多Agent管道需要5-25秒 用户在3秒后就会失去耐心 设计原则 从第一天起就设计并行化:哪些调用可以同时进行? 对每一步设置延迟上限 在延迟和准确性之间做权衡 使用缓存和预计算减少延迟 与模型路由的关系 模型路由可以通过选择更快的轻量级模型来帮助控制延迟预算,但需要在成本和准确性之间做平衡。