Karpathy的"AI精神错乱"与我的7个Agent：从"码农"到"牧羊人"的范式转移

2026-03-22

OpenClaw, AI Agent, Andrej Karpathy, 工作流, 智能体工程

“AI没给你想要的结果，不是AI不行，是你还没找到把它串起来的方法。这本质上是一个’Skill Issue’（技能问题）。”
—— Andrej Karpathy

当我们谈论将 LLM（大语言模型）真正应用到复杂的生产环境时，前特斯拉 AI 总监、OpenAI 创始成员 Andrej Karpathy 的这段话，无疑是当下最精准的判词。

安德烈·卡帕斯 (Andrej Karpathy) 是人工智能领域的传奇人物。他曾作为特斯拉的 AI 总监，领导了 Autopilot 视觉团队，将深度学习应用于大规模现实世界挑战；他也是 OpenAI 的创始成员，直接参与了 GPT 系列模型的核心研发；更让无数技术人铭记的是，他是斯坦福大学 CS231n 课程的主讲人，这门课程影响了整整一代深度学习工程师。作为一名既具备顶级学术背景、又拥有丰富工业界落地经验的科学家和教育者，Karpathy 的每一次技术洞察，都往往预示着 AI 应用范式的重大转变。

当下的我们，正处于一个被 Karpathy 称为"Loopy Era of AI"（AI 循环时代）的转折点。在这个时代，单次对话（Single Prompt）的魔法已经失效，真正的生产力爆发，藏在如何将多个 AI Agent 组合、编排并"串联"起来的系统工程中。

在最近的一次交流中，Karpathy 提到了一个让他深感震撼、甚至让他陷入"AI精神错乱（AI Psychosis）"的真实案例——知名开源项目 OpenClaw 的作者 Peter Steinberger 的日常工作流。而看着 Steinberger 的故事，我会心一笑，因为作为一名深耕工业 AI 领域的从业者，我现在的日常也是如此：屏幕上同时运行着 7 个 Agent，它们各司其职，而我只负责给方向、看结果。

今天，我想结合 Karpathy 的访谈核心观点以及我自己的实战经验，深度聊聊：在这个"Agent 爆发的十年"，我们究竟该如何重塑自己的工作流？

一、震撼 Karpathy 的"100x 工作流"：Peter Steinberger 与他的 Agent 军队

要理解什么是"串起来的方法"，我们首先要看看那些走在时代最前沿的人是如何工作的。

在近期的《No Priors》播客和一系列交流中，Karpathy 坦言，自从 2025 年底开始，他编写代码的习惯发生了根本性的反转。过去，他是 80% 的时间自己写代码，20% 的时间依靠 AI 辅助；而现在，这个比例变成了 20% 的时间自己写，80% 的时间委托给 Agent——甚至现在连 20% 都不到。

促使他产生这种认知飞跃的，是观察到了像 Peter Steinberger 这样的顶尖开发者的工作状态。

Peter Steinberger 是一名奥地利软件工程师，他在短短几天内打造了在 GitHub 上狂揽数十万星的现象级开源项目 OpenClaw（前身为 Clawdbot/Moltbot）。与普通开发者不同，Steinberger 在开发时并不是在一个编辑器里与一个大模型死磕。他的屏幕上，同时打开了十几个代码仓库（Repos），每一个仓库背后都有一个独立的 Agent 在运行。

Karpathy 观察到了这种工作流的几个核心特征：

20分钟的宏观动作（Macro-actions）：Steinberger 给 Agent 下达的不再是"帮我写一个快速排序算法"这种微观指令，而是"实现这个功能模块，加上单元测试，并处理好异常日志"这种高信息量的任务（High-effort prompting）。一个拥有充足上下文的 Agent，完成这样一个任务大约需要 20 分钟。

人类化身"路由器"与"验收员"：在这 20 分钟里，Steinberger 并没有闲着。他切换到第二个 Agent，审查它刚刚提交的 Pull Request（PR）；验收通过后，合并代码，然后给第三个 Agent 分配新的任务。

极度并行的注意力分配：他就像一个同时在下十盘国际象棋的大师，或者一个管理着十几个不知疲倦的数字员工的项目经理。

Karpathy 坦言，看到这种工作方式，他感到了一种"AI 精神错乱"。因为在过去，软件开发的瓶颈是程序员敲击键盘的速度和单线程的脑力；而现在，瓶颈变成了人类管理者分配任务、验证结果和提供上下文的带宽。能力一直都在那里，关键在于你是否掌握了这种"并行编排"的技能。

二、为什么你总觉得 AI “不行”？拆解"串联"背后的哲学

如果 AI 真的这么强大，为什么大多数人在实际工作中的体感却是"AI 总是在关键时刻掉链子"？

这就回到了 Karpathy 提到的那个词：Skill Issue（技能问题）。很多人对 AI 的预期停留在"自动售卖机"模式：投币（输入一个巨大的 Prompt），然后期待掉出一罐完美的肥宅快乐水（一个完美运行的软件系统）。当 AI 输出了包含 bug 的代码或偏离需求的设计时，人类就会感到挫败，并得出"AI 还不够聪明"的结论。

但真正的 Agentic Engineering（智能体工程）并非如此。AI 之所以会失败，往往是因为人类没有为它构建一个能够"自我收敛"的闭环环境。要将 AI 串联起来，你需要解决三个核心问题：

1. 任务的解耦与原子化

让一个 Agent 去"开发一个完整的工业物联网数据中台"，它一定会崩溃，因为上下文会在漫长的生成过程中发生漂移（Context Rot）。正确的做法是将目标拆解为 20 分钟内可以完成的原子任务：接口定义、数据库迁移脚本、单点登录鉴权模块。串联的第一步，是拆解。

2. 干净且聚焦的上下文（Context is King）

Steinberger 的成功秘诀之一，就是极其注重上下文的管理。一个优秀的"牧羊人"不会把整个几 GB 的代码库扔给 AI，而是精准地提供当前任务所需的接口文档、错误日志和关联文件。过多无关的代码会干扰 AI 的注意力，而过少的信息则会导致"幻觉"。

3. 构建二元测试（Binary Assertions）与验收反馈回路

这是最重要的一点。Karpathy 在其提出的 AutoResearch 理念中强调，Agent 需要明确的"成功标准"。如果你不写代码，你的核心技能就必须转变为写测试。

你需要构建明确的二元断言（Pass/Fail Checks）——它可以通过脚本自动评估，或者由另一个专门负责评判的 LLM 给出明确的 Yes/No。Agent 生成代码 -> 运行测试 -> 读取失败日志 -> 自我反思 -> 修改代码。只有当人类建立了这样一个自动化评估回路，Agent 才能在没有人类干预的情况下，通过反复试错将成功率从 60% 提升到 90% 以上。

三、我的实战：7个 Agent 在工业 AI 车间的交响乐

对 Karpathy 的观察，我有着最切身的体会。我现在也是这么干的。作为一名深耕工业 AI 领域的从业者，我面对的往往是庞杂的传感器数据、严苛的实时性要求以及复杂的系统架构。靠个人的单线程作战，精力早已捉襟见肘。

现在，我的工作台就像是一个数字化的"自动化流水线"，7 个 Agent 构成了我的核心团队，它们各司其职，而我只负责给出方向、设定边界并查看最终结果。

以下是我的 7 个 Agent 的具体分工：

Agent 1：需求分析与架构设计师（The Architect）

这是我的"大管家"。它的任务不是写代码，而是读取我用自然语言描述的工业场景需求（例如：某型号设备的预测性维护需求），将其转化为结构化的系统架构图、数据流图和清晰的 API 接口契约。

Agent 2：数据特征工程专家（The Wrangler）

工业界充满了脏数据。这个 Agent 专门负责编写处理脚本，清洗缺失值、对齐时间序列、提取频域和时域特征。我只需要丢给它一段数据样本和清洗规则，它就会花 20 分钟产出健壮的预处理 Pipeline。

Agent 3：核心算法研究员（The Modeler）

它负责在给定的框架（如 PyTorch 或 TensorFlow）下，搭建深度学习模型架构，并编写超参数搜索脚本。它就像一个不知疲倦的实验员，在后台不断跑 Demo 并记录损失函数的收敛情况。

Agent 4：边缘侧部署工程师（The Edge Deployer）

工业 AI 往往需要将大模型压缩并部署到算力受限的边缘设备上。这个 Agent 专注于将模型转换为 ONNX 格式、编写 C++ 部署逻辑，并处理内存优化问题。

Agent 5：后端服务与 API 封装者（The Backend Builder）

当核心算法就绪后，它负责编写 RESTful API 或 gRPC 服务，将模型能力封装起来，对接工厂的 MES（制造执行系统）。

Agent 6：QA 与自动化审计员（The Inspector）

这是我的"质检员"。它不生产功能，只负责挑刺。它会读取前五个 Agent 产出的代码，编写极限测试用例，运行模拟压力测试。如果发现 Bug，它会将错误堆栈（Stack Trace）直接发给对应的 Agent 要求重写。

Agent 7：技术布道者与文档生成器（The Documenter）

最后，它负责将晦涩的代码和系统逻辑，转化为格式严谨的实施方案、用户手册和项目复盘文档。

四、从"码农"到"牧羊人"：技能栈的重构

这种工作流的转变，本质上是一场技能栈的重构。

过去，我们被训练成"码农"：精通某种编程语言，记忆大量的 API 和框架细节，追求手速和代码的优雅。我们的价值在于"我能写出这段代码"。

现在，我们必须进化成"牧羊人"：我们的价值在于"我能让 7 个 Agent 协同工作，产出比我一个人写 10 倍还多的高质量代码"。

这意味着什么？

编码能力依然重要，但不再是核心竞争力。你依然需要懂代码，因为你要能看懂 Agent 产出的代码，判断它是否优雅、是否存在潜在的并发问题。但你不再需要记忆所有的语法糖，因为 Agent 比你记得更牢。

系统设计和架构能力变得至关重要。当 Agent 可以帮你实现任何功能模块时，你的核心任务变成了：如何设计一个高内聚、低耦合的系统架构？如何定义清晰的接口契约？如何确保 7 个 Agent 的工作不会互相冲突？

测试和验收能力成为新的护城河。正如 Karpathy 所说，如果你不再写代码，你就必须成为最懂测试的人。你要能设计出覆盖所有边界条件的测试用例，要能构建自动化的验收流水线。你的 Agent 军队能跑多快，取决于你的测试体系有多完善。

上下文管理能力决定效率上限。如何给 Agent 提供"刚刚好"的信息？如何设计知识库的结构，让 Agent 能快速检索到需要的文档？如何管理多个并行的 Agent 会话，确保它们不会互相干扰？这些都是"牧羊人"的核心技能。

五、工业 AI 的特殊挑战与 Agent 的应对

工业 AI 领域有其特殊性，这也让我的 7 个 Agent 分工有了独特的考量。

实时性要求：工业场景往往要求毫秒级的响应延迟。Agent 4（边缘侧部署工程师）的存在，就是为了解决"模型很大，但边缘设备算力有限"的矛盾。它需要在模型精度和推理速度之间找到最佳平衡点。

数据质量问题：工业传感器数据充满了噪声、缺失值和异常点。Agent 2（数据特征工程专家）必须足够"鲁棒"，能自动识别并处理各种数据质量问题。

系统集成复杂度：工业 AI 系统往往需要对接工厂现有的 MES、ERP、SCADA 等系统。Agent 5（后端服务与 API 封装者）需要熟悉各种工业协议（如 OPC UA、Modbus），能将 AI 能力无缝集成到现有的工业软件生态中。

可解释性要求：工业客户往往要求模型决策过程可解释。Agent 3（核心算法研究员）需要在模型设计时就考虑可解释性，比如使用 SHAP 值或注意力机制可视化来解释模型的预测依据。

安全与合规：工业系统对安全性和稳定性要求极高。Agent 6（QA 与自动化审计员）的任务不仅是找 Bug，还要进行安全审计，确保代码没有潜在的安全漏洞。

六、未来已来：Agent 时代的生存指南

Karpathy 说，我们正处于"Agent 爆发的十年"。这不是危言耸听，而是正在发生的现实。

对于那些还在用"自动售卖机"模式使用 AI 的人，我的建议是：立刻转变思维，从"用户"变成"编排者"。

具体怎么做？

从小处开始：不要试图一次性搭建 7 个 Agent。从一个 Agent 开始，让它帮你完成一个具体的、原子化的任务。熟悉这种"委托-验收"的工作模式后，再逐步增加 Agent 的数量。

投资测试基础设施：在开始使用 Agent 之前，先花时间搭建自动化的测试框架。这是你的"安全网"，也是 Agent 能够自主迭代的前提。

建立知识库：整理你的项目文档、API 接口定义、编码规范。这些是 Agent 的"上下文燃料"，燃料越充足，Agent 的表现越好。

学会"放手"：最难的一步是心理层面的。你要接受一个事实：Agent 写的代码可能比你写得更快、更好。你的角色从"执行者"变成了"监督者"，这种身份转变需要适应。

持续学习：Agent 技术正在飞速发展。今天最好的实践，明天可能就被淘汰。保持对新技术（如多 Agent 协作框架、自动化的代码审查工具）的敏感度，持续迭代你的工作流。

结语

Karpathy 的"AI 精神错乱"，其实是一种认知的觉醒。当我们第一次看到一个人能同时管理十几个 Agent，产出相当于一个团队的代码量时，那种震撼是真实的。

但这并不是终点，而是起点。

在这个"Agent 爆发的十年"，技术人面临着一个选择：是继续做一个单打独斗的"码农"，还是进化成一个指挥数字军队的"牧羊人"？

答案显而易见。能力一直都在那里，关键在于你是否掌握了这种"并行编排"的技能。

正如 Karpathy 所说：“AI 没给你想要的结果，不是 AI 不行，是你还没找到把它串起来的方法。”

现在，是时候学习如何"串起来"了。

AI技术技术趋势