Andrej Karpathy加入Anthropic之后，更值得回看的，是他如何一路塑造今天的AI

2026-05-20

AI教育, OpenAI, Anthropic, Claude, Andrej Karpathy, Tesla

摘要：Andrej Karpathy宣布加入Anthropic，负责Claude预训练相关工作。这当然是一条大新闻，但如果只把它理解为一次明星研究员跳槽，就太低估这个人了。Karpathy更稀缺的地方，不是他在哪家公司，而是他几乎在过去十多年AI最关键的三个位置上都留下了清晰印记：研究、工程，以及教育。

Andrej Karpathy 宣布加入 Anthropic，将投入 Claude 预训练团队的工作。按照 Anthropic 对外的说法，这支团队负责大规模训练任务，决定 Claude 的核心知识和能力边界；TechCrunch 则进一步提到，他还会启动一个新团队，研究如何用 Claude 反过来加速预训练研究本身。

这当然是一条大新闻。但如果只把它理解为一次明星研究员跳槽，就太低估这个人了。

Karpathy 更稀缺的地方，不是他在哪家公司，而是他几乎在过去十多年 AI 最关键的三个位置上都留下了清晰印记：研究、工程，以及教育。很多 AI 名人只占一个维度，有的人论文强，有的人产品强，有的人表达强；Karpathy 少见地把这三者都占了，而且每一次都踩在行业的转折点上。

一、为什么Anthropic要的是Karpathy，而不只是一个“名人研究员”

Karpathy 在 X 上说，他之所以加入 Anthropic，是因为“未来几年前沿 LLM 的发展会非常关键”，他想回到一线研发。这个表述很克制，但背后的含义并不小。

预训练并不是一个适合“品牌型人才”挂名的岗位。它是整个大模型体系里最昂贵、最基础、也最难被外界直接看见的环节。数据如何组织、训练如何调度、模型能力如何在早期阶段被塑形，这些决定了模型后续能否在推理、工具调用、Agent 工作流和安全对齐中站住脚。Anthropic 把 Karpathy 放到这里，说明它看重的不是他在社交平台上的影响力，而是他少数能够同时理解“模型从哪里长出来”和“系统最后怎么落地”的能力。

这也是为什么 Karpathy 的履历和一般的 AI 明星不太一样。他不是只在学术圈出名，也不是只在创业圈有热度，而是在每个关键阶段都刚好站在了产业结构正在变化的地方。

二、斯坦福时期：他赶上了深度学习第一次大爆炸

Karpathy 早期最重要的身份，其实不是 OpenAI 联合创始人，也不是 Tesla AI 总监，而是斯坦福那一代把深度学习真正系统化传播出去的人。

他在斯坦福师从李飞飞，博士研究集中在卷积网络、循环网络，以及计算机视觉和自然语言的交叉问题。今天回头看，这条路径几乎就是后来多模态模型的早期地基。更关键的是，他不是只做论文，他还把复杂的深度学习知识讲清楚了。

CS231n 之所以在 AI 教育史上地位特殊，不是因为它是一个热门课程，而是因为它把当时还偏研究导向的深度学习，第一次变成了大批工程师可以系统进入的知识入口。很多后来在工业界做视觉、做 NLP、做大模型工程的人，最早的体系化训练都绕不过这门课。

如果说 Geoffrey Hinton、Yann LeCun 那一代人推动了神经网络重回主舞台，那么像 Karpathy 这样的人，则把这套东西翻译给了真正的开发者世界。

三、OpenAI 与 Tesla：他两次进入“把模型推到现实世界”的主战场

Karpathy 2015 年加入 OpenAI，是 founding member。那时的 OpenAI 还没有后来这么强烈的产品公司气质，更像一个试图把前沿深度学习快速推向新边界的研究组织。Karpathy 在这里待的时间不算最长，但这段经历让他进入了最早一批真正接近通用模型范式的人群。

随后他去 Tesla 负责 AI 与 Autopilot 视觉团队，这一步非常关键。很多研究员的职业轨迹是在实验室里不断逼近更高指标，但 Tesla 的问题完全不同：数据来自真实道路，推理要落在车端芯片，错误成本不是 benchmark 掉几分，而是现实世界的安全问题。

这段经历让 Karpathy 身上多了一层很难替代的东西：他不是只知道怎么训练模型，也知道模型一旦进入复杂物理世界，会在哪里失真、在哪里受限、又必须如何围绕数据、标注、部署和推理闭环去重新设计。

也正因为这样，他后来再谈 LLM、Agent、自动化研究时，味道和很多纯研究背景的人不一样。他的判断里一直带着很强的工程现实感，不太容易飘到只有概念没有系统约束的地方。

四、他最被低估的贡献，可能根本不是研究，而是“把AI讲明白”

Karpathy 真正形成广泛影响力，是在成为“教育者型研究员”之后。

无论是 YouTube 上的讲解，还是后来广为流传的 micrograd、nanoGPT、Neural Networks: Zero to Hero，他做的事情都很一致：把最热、最复杂、最容易被神化的 AI 技术，拆解成开发者可以亲手复现的东西。

这点对 AI 行业的意义其实比很多单篇论文更大。因为每一次范式转换，真正限制扩散速度的，往往不是“有没有更强模型”，而是“有没有足够多人能理解、复现、改造它”。Karpathy 的开源项目和教学内容，相当于不断降低这个门槛。

nanoGPT 就是很典型的例子。它不是一个为了生产环境而设计的庞大框架，恰恰相反，它的价值在于让人能用尽量短的路径理解 GPT 类模型的训练逻辑。很多人第一次真正搞清楚 tokenizer、embedding、attention、训练 loop，不是靠论文，而是靠 Karpathy 这种“把黑箱拆开给你看”的教学方式。

到了 2024 年他创办 Eureka Labs，这条线就更清楚了。他不是把教育当成副业，而是明确把 AI 教育当成一个可以重新设计的系统问题去做。这里面有一个很稳定的 Karpathy 风格：他总是在前沿研究和大众理解之间，主动搭一座桥。

五、从“vibe coding”到Anthropic：他影响的已经不只是模型，还有一代开发者的工作方式

Karpathy 这两年在开发者圈最出圈的，并不只是课程和代码仓库，还有他对 AI 编程工作流的命名与解释能力。无论是他提出并带火的 “vibe coding” 说法，还是他反复强调的 Agent 工作流、上下文管理、测试闭环，这些东西之所以传播得快，不只是因为概念新，而是因为他说中了很多程序员正在经历但尚未说清的变化。

这也是 Karpathy 和很多 AI 高管最大的不同。他既能进入 Anthropic 这种一线模型公司的核心训练环节，也能反过来影响最广泛的一批开发者如何理解“和模型一起工作”。

所以这次加入 Anthropic，表面上看是一次人才流动，实质上更像是三个角色重新合一：

早年做视觉与深度学习研究的 Karpathy
在 OpenAI 与 Tesla 做大规模工程系统的 Karpathy
用课程、代码和公共表达影响开发者群体的 Karpathy

Anthropic 拿到的，不只是一个能做研究的人，更是一个知道怎样把研究转成工程，再把工程经验转成方法论的人。

六、为什么这条新闻值得单独写，而不只是“某某加入某公司”

普通的人事新闻，写法通常很简单：谁加入了谁，负责什么，意味着什么。但 Karpathy 这种人不太适合这么写，因为真正重要的问题不是“他去了 Anthropic”，而是“为什么每当 AI 进入一个新阶段，这个人总会出现在附近”。

答案大概有三点。

第一，他总是靠近真正决定下一阶段能力边界的地方。早年是深度学习和视觉，后来是自动驾驶与大规模部署，再后来是大模型教育与开发者工作流，现在则是 Claude 的预训练。

第二，他有很强的“中间层能力”。很多人能做前沿研究，但不擅长把它翻译给工程团队；也有人能做产品，但不理解底层训练发生了什么。Karpathy 稀缺就稀缺在这里，他经常扮演的是连接研究、系统和开发者认知的那一层。

第三，他对行业的贡献并不只体现在供职过哪些公司，还体现在他重塑了很多人学习 AI、写 AI、理解 AI 的方式。一个能解释前沿技术的人，某种程度上也是在定义行业共识。

结语

Anthropic 这次招到 Karpathy，短期看当然会被理解为前沿模型竞赛中的一次重要加码，尤其是在预训练这种最核心的基础环节上。这个判断没问题。

但如果把时间线拉长一点，这条新闻真正有意思的地方在于，它再次提醒了我们：Karpathy 的分量，从来不只是“某家明星公司的明星研究员”。他更像是过去十多年 AI 演化史中的一个稳定路标。研究热潮起来时，他在；模型开始大规模落地时，他在；AI 教育和开发者工作流重构时，他也在。

现在他去了 Anthropic，负责 Claude 最底层的预训练工作。与其说这只是一次跳槽，不如说这是一个一直在塑造 AI 叙事的人，再次回到了最靠近下一轮能力源头的位置。

AI技术