Karpathy的"AI精神错乱"与我的7个Agent:从"码农"到"牧羊人"的范式转移

“AI没给你想要的结果,不是AI不行,是你还没找到把它串起来的方法。这本质上是一个’Skill Issue’(技能问题)。”
—— Andrej Karpathy

当我们谈论将 LLM(大语言模型)真正应用到复杂的生产环境时,前特斯拉 AI 总监、OpenAI 创始成员 Andrej Karpathy 的这段话,无疑是当下最精准的判词。

安德烈·卡帕斯 (Andrej Karpathy) 是人工智能领域的传奇人物。他曾作为特斯拉的 AI 总监,领导了 Autopilot 视觉团队,将深度学习应用于大规模现实世界挑战;他也是 OpenAI 的创始成员,直接参与了 GPT 系列模型的核心研发;更让无数技术人铭记的是,他是斯坦福大学 CS231n 课程的主讲人,这门课程影响了整整一代深度学习工程师。作为一名既具备顶级学术背景、又拥有丰富工业界落地经验的科学家和教育者,Karpathy 的每一次技术洞察,都往往预示着 AI 应用范式的重大转变。

当下的我们,正处于一个被 Karpathy 称为"Loopy Era of AI"(AI 循环时代)的转折点。在这个时代,单次对话(Single Prompt)的魔法已经失效,真正的生产力爆发,藏在如何将多个 AI Agent 组合、编排并"串联"起来的系统工程中。

在最近的一次交流中,Karpathy 提到了一个让他深感震撼、甚至让他陷入"AI精神错乱(AI Psychosis)"的真实案例——知名开源项目 OpenClaw 的作者 Peter Steinberger 的日常工作流。而看着 Steinberger 的故事,我会心一笑,因为作为一名深耕工业 AI 领域的从业者,我现在的日常也是如此:屏幕上同时运行着 7 个 Agent,它们各司其职,而我只负责给方向、看结果。

今天,我想结合 Karpathy 的访谈核心观点以及我自己的实战经验,深度聊聊:在这个"Agent 爆发的十年",我们究竟该如何重塑自己的工作流?

一、震撼 Karpathy 的"100x 工作流":Peter Steinberger 与他的 Agent 军队

要理解什么是"串起来的方法",我们首先要看看那些走在时代最前沿的人是如何工作的。

在近期的《No Priors》播客和一系列交流中,Karpathy 坦言,自从 2025 年底开始,他编写代码的习惯发生了根本性的反转。过去,他是 80% 的时间自己写代码,20% 的时间依靠 AI 辅助;而现在,这个比例变成了 20% 的时间自己写,80% 的时间委托给 Agent——甚至现在连 20% 都不到。

促使他产生这种认知飞跃的,是观察到了像 Peter Steinberger 这样的顶尖开发者的工作状态。

Peter Steinberger 是一名奥地利软件工程师,他在短短几天内打造了在 GitHub 上狂揽数十万星的现象级开源项目 OpenClaw(前身为 Clawdbot/Moltbot)。与普通开发者不同,Steinberger 在开发时并不是在一个编辑器里与一个大模型死磕。他的屏幕上,同时打开了十几个代码仓库(Repos),每一个仓库背后都有一个独立的 Agent 在运行。

Karpathy 观察到了这种工作流的几个核心特征:

20分钟的宏观动作(Macro-actions):Steinberger 给 Agent 下达的不再是"帮我写一个快速排序算法"这种微观指令,而是"实现这个功能模块,加上单元测试,并处理好异常日志"这种高信息量的任务(High-effort prompting)。一个拥有充足上下文的 Agent,完成这样一个任务大约需要 20 分钟。

人类化身"路由器"与"验收员":在这 20 分钟里,Steinberger 并没有闲着。他切换到第二个 Agent,审查它刚刚提交的 Pull Request(PR);验收通过后,合并代码,然后给第三个 Agent 分配新的任务。

极度并行的注意力分配:他就像一个同时在下十盘国际象棋的大师,或者一个管理着十几个不知疲倦的数字员工的项目经理。

Karpathy 坦言,看到这种工作方式,他感到了一种"AI 精神错乱"。因为在过去,软件开发的瓶颈是程序员敲击键盘的速度和单线程的脑力;而现在,瓶颈变成了人类管理者分配任务、验证结果和提供上下文的带宽。能力一直都在那里,关键在于你是否掌握了这种"并行编排"的技能。

二、为什么你总觉得 AI “不行”?拆解"串联"背后的哲学

如果 AI 真的这么强大,为什么大多数人在实际工作中的体感却是"AI 总是在关键时刻掉链子"?

这就回到了 Karpathy 提到的那个词:Skill Issue(技能问题)。很多人对 AI 的预期停留在"自动售卖机"模式:投币(输入一个巨大的 Prompt),然后期待掉出一罐完美的肥宅快乐水(一个完美运行的软件系统)。当 AI 输出了包含 bug 的代码或偏离需求的设计时,人类就会感到挫败,并得出"AI 还不够聪明"的结论。

但真正的 Agentic Engineering(智能体工程)并非如此。AI 之所以会失败,往往是因为人类没有为它构建一个能够"自我收敛"的闭环环境。要将 AI 串联起来,你需要解决三个核心问题:

1. 任务的解耦与原子化

让一个 Agent 去"开发一个完整的工业物联网数据中台",它一定会崩溃,因为上下文会在漫长的生成过程中发生漂移(Context Rot)。正确的做法是将目标拆解为 20 分钟内可以完成的原子任务:接口定义、数据库迁移脚本、单点登录鉴权模块。串联的第一步,是拆解。

2. 干净且聚焦的上下文(Context is King)

Steinberger 的成功秘诀之一,就是极其注重上下文的管理。一个优秀的"牧羊人"不会把整个几 GB 的代码库扔给 AI,而是精准地提供当前任务所需的接口文档、错误日志和关联文件。过多无关的代码会干扰 AI 的注意力,而过少的信息则会导致"幻觉"。

3. 构建二元测试(Binary Assertions)与验收反馈回路

这是最重要的一点。Karpathy 在其提出的 AutoResearch 理念中强调,Agent 需要明确的"成功标准"。如果你不写代码,你的核心技能就必须转变为写测试。

你需要构建明确的二元断言(Pass/Fail Checks)——它可以通过脚本自动评估,或者由另一个专门负责评判的 LLM 给出明确的 Yes/No。Agent 生成代码 -> 运行测试 -> 读取失败日志 -> 自我反思 -> 修改代码。只有当人类建立了这样一个自动化评估回路,Agent 才能在没有人类干预的情况下,通过反复试错将成功率从 60% 提升到 90% 以上。

三、我的实战:7个 Agent 在工业 AI 车间的交响乐

对 Karpathy 的观察,我有着最切身的体会。我现在也是这么干的。作为一名深耕工业 AI 领域的从业者,我面对的往往是庞杂的传感器数据、严苛的实时性要求以及复杂的系统架构。靠个人的单线程作战,精力早已捉襟见肘。

现在,我的工作台就像是一个数字化的"自动化流水线",7 个 Agent 构成了我的核心团队,它们各司其职,而我只负责给出方向、设定边界并查看最终结果。

以下是我的 7 个 Agent 的具体分工:

Agent 1:需求分析与架构设计师(The Architect)

这是我的"大管家"。它的任务不是写代码,而是读取我用自然语言描述的工业场景需求(例如:某型号设备的预测性维护需求),将其转化为结构化的系统架构图、数据流图和清晰的 API 接口契约。

Agent 2:数据特征工程专家(The Wrangler)

工业界充满了脏数据。这个 Agent 专门负责编写处理脚本,清洗缺失值、对齐时间序列、提取频域和时域特征。我只需要丢给它一段数据样本和清洗规则,它就会花 20 分钟产出健壮的预处理 Pipeline。

Agent 3:核心算法研究员(The Modeler)

它负责在给定的框架(如 PyTorch 或 TensorFlow)下,搭建深度学习模型架构,并编写超参数搜索脚本。它就像一个不知疲倦的实验员,在后台不断跑 Demo 并记录损失函数的收敛情况。

Agent 4:边缘侧部署工程师(The Edge Deployer)

工业 AI 往往需要将大模型压缩并部署到算力受限的边缘设备上。这个 Agent 专注于将模型转换为 ONNX 格式、编写 C++ 部署逻辑,并处理内存优化问题。

Agent 5:后端服务与 API 封装者(The Backend Builder)

当核心算法就绪后,它负责编写 RESTful API 或 gRPC 服务,将模型能力封装起来,对接工厂的 MES(制造执行系统)。

Agent 6:QA 与自动化审计员(The Inspector)

这是我的"质检员"。它不生产功能,只负责挑刺。它会读取前五个 Agent 产出的代码,编写极限测试用例,运行模拟压力测试。如果发现 Bug,它会将错误堆栈(Stack Trace)直接发给对应的 Agent 要求重写。

Agent 7:技术布道者与文档生成器(The Documenter)

最后,它负责将晦涩的代码和系统逻辑,转化为格式严谨的实施方案、用户手册和项目复盘文档。

四、从"码农"到"牧羊人":技能栈的重构

这种工作流的转变,本质上是一场技能栈的重构。

过去,我们被训练成"码农":精通某种编程语言,记忆大量的 API 和框架细节,追求手速和代码的优雅。我们的价值在于"我能写出这段代码"。

现在,我们必须进化成"牧羊人":我们的价值在于"我能让 7 个 Agent 协同工作,产出比我一个人写 10 倍还多的高质量代码"。

这意味着什么?

编码能力依然重要,但不再是核心竞争力。你依然需要懂代码,因为你要能看懂 Agent 产出的代码,判断它是否优雅、是否存在潜在的并发问题。但你不再需要记忆所有的语法糖,因为 Agent 比你记得更牢。

系统设计和架构能力变得至关重要。当 Agent 可以帮你实现任何功能模块时,你的核心任务变成了:如何设计一个高内聚、低耦合的系统架构?如何定义清晰的接口契约?如何确保 7 个 Agent 的工作不会互相冲突?

测试和验收能力成为新的护城河。正如 Karpathy 所说,如果你不再写代码,你就必须成为最懂测试的人。你要能设计出覆盖所有边界条件的测试用例,要能构建自动化的验收流水线。你的 Agent 军队能跑多快,取决于你的测试体系有多完善。

上下文管理能力决定效率上限。如何给 Agent 提供"刚刚好"的信息?如何设计知识库的结构,让 Agent 能快速检索到需要的文档?如何管理多个并行的 Agent 会话,确保它们不会互相干扰?这些都是"牧羊人"的核心技能。

五、工业 AI 的特殊挑战与 Agent 的应对

工业 AI 领域有其特殊性,这也让我的 7 个 Agent 分工有了独特的考量。

实时性要求:工业场景往往要求毫秒级的响应延迟。Agent 4(边缘侧部署工程师)的存在,就是为了解决"模型很大,但边缘设备算力有限"的矛盾。它需要在模型精度和推理速度之间找到最佳平衡点。

数据质量问题:工业传感器数据充满了噪声、缺失值和异常点。Agent 2(数据特征工程专家)必须足够"鲁棒",能自动识别并处理各种数据质量问题。

系统集成复杂度:工业 AI 系统往往需要对接工厂现有的 MES、ERP、SCADA 等系统。Agent 5(后端服务与 API 封装者)需要熟悉各种工业协议(如 OPC UA、Modbus),能将 AI 能力无缝集成到现有的工业软件生态中。

可解释性要求:工业客户往往要求模型决策过程可解释。Agent 3(核心算法研究员)需要在模型设计时就考虑可解释性,比如使用 SHAP 值或注意力机制可视化来解释模型的预测依据。

安全与合规:工业系统对安全性和稳定性要求极高。Agent 6(QA 与自动化审计员)的任务不仅是找 Bug,还要进行安全审计,确保代码没有潜在的安全漏洞。

六、未来已来:Agent 时代的生存指南

Karpathy 说,我们正处于"Agent 爆发的十年"。这不是危言耸听,而是正在发生的现实。

对于那些还在用"自动售卖机"模式使用 AI 的人,我的建议是:立刻转变思维,从"用户"变成"编排者"

具体怎么做?

从小处开始:不要试图一次性搭建 7 个 Agent。从一个 Agent 开始,让它帮你完成一个具体的、原子化的任务。熟悉这种"委托-验收"的工作模式后,再逐步增加 Agent 的数量。

投资测试基础设施:在开始使用 Agent 之前,先花时间搭建自动化的测试框架。这是你的"安全网",也是 Agent 能够自主迭代的前提。

建立知识库:整理你的项目文档、API 接口定义、编码规范。这些是 Agent 的"上下文燃料",燃料越充足,Agent 的表现越好。

学会"放手":最难的一步是心理层面的。你要接受一个事实:Agent 写的代码可能比你写得更快、更好。你的角色从"执行者"变成了"监督者",这种身份转变需要适应。

持续学习:Agent 技术正在飞速发展。今天最好的实践,明天可能就被淘汰。保持对新技术(如多 Agent 协作框架、自动化的代码审查工具)的敏感度,持续迭代你的工作流。

结语

Karpathy 的"AI 精神错乱",其实是一种认知的觉醒。当我们第一次看到一个人能同时管理十几个 Agent,产出相当于一个团队的代码量时,那种震撼是真实的。

但这并不是终点,而是起点。

在这个"Agent 爆发的十年",技术人面临着一个选择:是继续做一个单打独斗的"码农",还是进化成一个指挥数字军队的"牧羊人"?

答案显而易见。能力一直都在那里,关键在于你是否掌握了这种"并行编排"的技能。

正如 Karpathy 所说:“AI 没给你想要的结果,不是 AI 不行,是你还没找到把它串起来的方法。”

现在,是时候学习如何"串起来"了。

分享到