AI系统五层架构
概述
AI系统五层架构是一个将生产级AI系统分解为五个核心层的结构化框架:数据层、模型层、编排层、接口层、基础设施层。该框架由一位瑞士架构师提出,经Vaidehi在推特上传播后引发广泛讨论,被认为是诊断和构建可靠AI系统的通用蓝图。
五层详解
第一层:数据层——AI的"记忆"和"知识库"
核心组件:
- 向量数据库(Pinecone、Qdrant、Chroma):语义搜索的基础
- Embedding模型:将人类语言转化为向量表示
- 文档处理:解析PDF、Word、网页等格式
- 知识图谱(Neo4j):连接实体和关系,支持推理
- RAG系统:检索增强生成,让AI查阅外部知识
- 语义缓存:缓存常见问题回答,降低成本
常见陷阱:RAG实现得不好比没有RAG更糟糕。chunk size、embedding模型选择、检索策略、重排序等细节决定成败。
第二层:模型层——AI的"大脑"
核心组件:
- 模型选择/路由:不同任务用不同模型,可降低成本60%-80%
- Prompt工程:结构化输入,稳定输出
- 安全护栏:防止有害输出
- 函数调用:让模型调用外部工具
- 成本监控:追踪token消耗
- 可观测性:监控模型性能
- 负载均衡:避免单点故障
2026年趋势:小模型正在赢。采用路由策略,轻量级模型处理简单任务,大模型处理复杂推理。
致命错误:单一模型依赖。从第一天起设计模型无关的抽象层。
第三层:编排层——AI的"神经系统"
核心组件:
- 状态管理:追踪会话和工作流状态
- 任务路由与规划:决定下一步行动
- 上下文管理:维护对话上下文
- 工作流管理:定义多步骤执行流程
- 多Agent协调:让多个Agent协同工作
- Agent交接:任务转移
- 记忆处理:存储和检索历史交互
核心设计原则:Agent应该窄而可组合,而不是宽而单体。
被低估的问题:延迟预算。一次LLM调用需1-5秒,5次串行调用需5-25秒,用户3秒后失去耐心。从第一天起设计并行化。
常用工具:LangGraph、CrewAI、Mem0,或自建轻量级编排框架。
第四层:接口层——AI的"脸"
核心组件:
- 聊天界面:文本对话
- 语音界面:2026年新标配,延迟低于200毫秒
- 多租户架构:企业级必备
- API网关:管理和路由API请求
- 嵌入式组件:嵌入其他应用
- WebSocket:实时双向通信
- Webhook:事件触发自动化
- 浏览器插件:延伸AI能力
2026年变化:语音成为一等公民。MCP协议崛起,成为AI与外部工具交互的标准协议。
第五层:基础设施层——AI的"地基"
核心组件:
- 算力(GPU/TPU)
- 容器与编排(Docker、Kubernetes)
- 监控、日志、安全
- CI/CD流水线
2026年变化:边缘推理变得真实。在本地运行70亿参数模型成为可能,改变隐私计算格局。
关键点:可观测性不是可选项,是必选项。LangSmith、Helicone或自建监控系统。
五层之间的关系
五层之间是深度咬合的关系,不是简单的堆叠:
- 数据层的RAG质量直接影响模型层的输出质量
- 模型层的延迟决定了编排层能设计多复杂的工作流
- 编排层的状态管理影响接口层的用户体验
- 基础设施层的算力和成本约束限制了上面所有层的设计空间
与现有维基的连接
- 为[[工程化部署AI]]提供了具体的、可操作的技术架构蓝图
- 解释了[[企业AI转型陷阱]]中"忽视架构系统性"这一具体陷阱
- 深化了[[Token成本管控]]中的"模型路由"策略
- 补充了[[边缘计算]]中"边缘推理"的具体场景和优势
- 详细阐述了[[RAG系统]]和[[编排层]]在2026年的最佳实践