Agent工作流推理芯片
Agent工作流推理芯片(Inference Chips for Agent Workflows)是YC在2026年夏季RFS中提出的硬件创业方向。YC认为,大多数AI芯片仍为"输入prompt、输出答案"的模式设计,但Agent的工作方式完全不同。
Agent工作负载特征
- 循环调用工具、分支、回溯
- 跨多个步骤保持上下文
- 负载突发,夹杂模型调用、I/O、CPU编排和KV cache管理
- 现有GPU利用率可能不理想
关键能力需求
- 快速上下文切换
- 持久KV cache
- 原生speculative decoding
- 多模型协同
- 工具调用间的调度
市场意义
Agent时代的硬件机会不只是更快的矩阵乘法,而是为"智能体执行图"设计芯片与编译器。这标志着AI瓶颈从模型本身扩展到算力、封装、供应链、编译器、数据中心和能源。