软件正在"活过来"：AI Agent时代需要什么样的新基础设施？

2026-05-02

AI Agent, 基础设施, 动态软件, Agent运行时, 可观测性, LangChain, CrewAI, Agno

摘要：过去50年，软件是"录音"——相同输入永远得到相同输出。AI Agent让软件变成了"现场演奏"。但这场演奏需要全新的舞台、乐器和音响系统。谁来建？

从"录音"到"现场演奏"

过去50年，所有软件本质上都是同一个东西：一组函数，通过硬编码的控制流串联起来。If, else, while, for。相同的输入，永远得到相同的输出。这是软件工程的基本契约。

这个契约让我们建起了整个数字世界。操作系统、数据库、Web服务器、部署平台、监控系统——所有基础设施都建立在一个假设之上：软件是确定性的。

然后AI Agent出现了。

控制流不再是硬编码的。模型在运行时决定下一步做什么。同样的输入，周二下午和周一上午可能得到完全不同的输出。软件不再是"播放录音"，而是"现场演奏"。

这不是一个比喻。这是一个工程现实。

五个被打破的基本假设

当软件从静态变成动态，过去50年积累的基础设施假设，一个接一个地失效。

第一，确定性失效。

传统软件的测试逻辑是：给定输入A，期望输出B。如果不是B，就是bug。但AI Agent的输出天然是非确定性的。同一个任务，模型可能选择不同的工具、不同的执行路径、不同的表达方式。你不能用assert来测试一个活的系统。

这意味着整个测试和质量保证体系需要重建。从"结果正确性"转向"行为合理性"。从单元测试转向评估框架（Evals）。

第二，状态管理失效。

传统软件的状态是显式的：数据库里的一行记录，Redis里的一个key，Session里的一个token。你知道状态在哪里，你可以查询、修改、回滚。

AI Agent的状态是隐式的：对话历史、工具调用记录、中间推理过程、记忆检索结果。这些状态分散在模型上下文、向量数据库、外部工具的返回值里。没有一个统一的"数据库"能存储Agent的完整状态。

第三，时间模型失效。

传统API的响应时间是毫秒级。超过3秒就是"慢"。但AI Agent完成一个任务可能需要几分钟甚至几小时。它可能需要调用多个工具、等待外部审批、执行多轮推理。

这意味着整个请求-响应模型不再适用。你需要异步执行、流式输出、后台任务、断点续传。HTTP的request-response范式，在Agent时代显得力不从心。

第四，可观测性失效。

传统软件的可观测性三板斧：日志、指标、链路追踪。但Agent的"链路"不是线性的。它可能分叉、回溯、循环、跳转。一个Agent可能调用另一个Agent，那个Agent又调用了第三个。调用图不是树，是图。

Datadog最新的AI工程报告显示，2026年2月，5%的LLM调用出现错误，其中60%是速率限制导致的。但更深层的问题是：当Agent出错时，你甚至很难定位"错在哪一步"。因为每一步都不是确定性的。

第五，权限模型失效。

传统软件的权限是静态的：用户A有权限X，服务B有权限Y。但Agent是动态决策的。它可能在运行时决定调用一个它"不应该"调用的工具。它可能在处理用户A的请求时，访问了用户B的数据。

这需要全新的权限模型：per-tool、per-resource、per-context的动态RBAC。不是"这个服务能访问什么"，而是"这个Agent在这个任务的这个步骤能访问什么"。

Agent基础设施分层架构

谁在建新基础设施？

意识到这些问题的人越来越多。一批新公司正在尝试为AI Agent时代构建基础设施。

Agent框架层： LangChain/LangGraph、CrewAI、Agno（前Phidata）、AutoGen、Semantic Kernel。它们解决的是"怎么把Agent组装起来"的问题——工具调用、多Agent协作、工作流编排。

可观测性层： Datadog推出了LLM Observability，Splunk在2026年Q1发布了AI Agent监控，Langfuse、Helicone等创业公司专注于LLM链路追踪。它们解决的是"Agent出了问题怎么排查"。

运行时层： 这是目前最薄弱的环节。Agent需要长时间运行、需要持久化会话、需要断点续传、需要跨重启恢复状态。传统的serverless和容器编排并不是为这种工作负载设计的。

安全与治理层： Agent的权限管理、审批门控、合规审计。当Agent能自主决策并执行操作时，"谁批准了这个操作"变成了一个必须回答的问题。

为什么80%的Agent不工作？

一个被反复提及的数据是：大多数企业的Agent项目停留在Demo阶段，无法进入生产环境。

原因不是模型不够强。GPT-4、Claude Opus、Gemini Ultra的能力已经足够完成大多数知识工作任务。

真正的瓶颈在"最后一公里"的工程问题：

SSE和WebSocket的流式传输
后台执行和会话持久化
跨重启的状态恢复
可查询的结构化存储（不是五个供应商拼凑在一起）
等待管理员签字的审批门控
多渠道部署（Slack、Telegram、WhatsApp、企业微信）

这些问题每一个都不性感，每一个都是苦活累活，但每一个都是Agent从Demo到Production的必经之路。

类比：从桌面应用到Web应用

上一次这么大的范式转移，是从桌面应用到Web应用。

Web软件需要自己的运行时（浏览器）、自己的协议（HTTP）、自己的基础设施（CDN、负载均衡、云计算）、自己的开发者工具（Chrome DevTools、Webpack、React）。我们花了二十年才把这些建完。

Heroku是2007年。Kubernetes是2014年。Vercel是2015年。我们现在习以为常的基础设施，比大多数使用它的开发者还年轻。

AI Agent的基础设施，现在大概处于"2005年的Web"阶段。大家知道这个东西会很大，但运行时、协议、开发者工具都还在早期。

对中国开发者的启示

这里面有一个巨大的机会窗口。

中国的AI应用层已经非常活跃——大模型、RAG、数字人、AI客服、智能体平台。但Agent基础设施层几乎是空白。

有没有一个好用的中文Agent可观测性平台？
有没有一个支持企业微信/钉钉/飞书的Agent部署框架？
有没有一个符合中国数据合规要求的Agent状态管理方案？
有没有一个能对接国产大模型的Agent运行时？

这些问题的答案，目前大多是"没有"或"凑合用"。

但需求是真实的。当越来越多的企业开始把AI Agent从Demo推向生产，这些基础设施的缺失会变成真正的痛点。

结语

软件正在"活过来"。这不是科幻，而是正在发生的工程现实。

但一个活的系统，比一个死的系统难伺候得多。它需要新的运行时来承载，新的协议来通信，新的工具来观测，新的规则来治理。

过去50年，我们为静态软件建了一整套基础设施。现在，动态软件的基础设施建设才刚刚开始。

谁能在这个层面建出"Agent时代的Kubernetes"、“Agent时代的Datadog”、“Agent时代的Vercel”，谁就可能定义下一个十年的软件工程。

这可能是2026年最值得关注的创业方向之一。不是做又一个Agent应用，而是做让所有Agent应用都能跑起来的那层基础设施。

AI技术