Andrej Karpathy加入Anthropic之后,更值得回看的,是他如何一路塑造今天的AI

摘要:Andrej Karpathy宣布加入Anthropic,负责Claude预训练相关工作。这当然是一条大新闻,但如果只把它理解为一次明星研究员跳槽,就太低估这个人了。Karpathy更稀缺的地方,不是他在哪家公司,而是他几乎在过去十多年AI最关键的三个位置上都留下了清晰印记:研究、工程,以及教育。

Andrej Karpathy 宣布加入 Anthropic,将投入 Claude 预训练团队的工作。按照 Anthropic 对外的说法,这支团队负责大规模训练任务,决定 Claude 的核心知识和能力边界;TechCrunch 则进一步提到,他还会启动一个新团队,研究如何用 Claude 反过来加速预训练研究本身。

这当然是一条大新闻。但如果只把它理解为一次明星研究员跳槽,就太低估这个人了。

Karpathy 更稀缺的地方,不是他在哪家公司,而是他几乎在过去十多年 AI 最关键的三个位置上都留下了清晰印记:研究、工程,以及教育。很多 AI 名人只占一个维度,有的人论文强,有的人产品强,有的人表达强;Karpathy 少见地把这三者都占了,而且每一次都踩在行业的转折点上。

一、为什么Anthropic要的是Karpathy,而不只是一个“名人研究员”

Karpathy 在 X 上说,他之所以加入 Anthropic,是因为“未来几年前沿 LLM 的发展会非常关键”,他想回到一线研发。这个表述很克制,但背后的含义并不小。

预训练并不是一个适合“品牌型人才”挂名的岗位。它是整个大模型体系里最昂贵、最基础、也最难被外界直接看见的环节。数据如何组织、训练如何调度、模型能力如何在早期阶段被塑形,这些决定了模型后续能否在推理、工具调用、Agent 工作流和安全对齐中站住脚。Anthropic 把 Karpathy 放到这里,说明它看重的不是他在社交平台上的影响力,而是他少数能够同时理解“模型从哪里长出来”和“系统最后怎么落地”的能力。

这也是为什么 Karpathy 的履历和一般的 AI 明星不太一样。他不是只在学术圈出名,也不是只在创业圈有热度,而是在每个关键阶段都刚好站在了产业结构正在变化的地方。

二、斯坦福时期:他赶上了深度学习第一次大爆炸

Karpathy 早期最重要的身份,其实不是 OpenAI 联合创始人,也不是 Tesla AI 总监,而是斯坦福那一代把深度学习真正系统化传播出去的人。

他在斯坦福师从李飞飞,博士研究集中在卷积网络、循环网络,以及计算机视觉和自然语言的交叉问题。今天回头看,这条路径几乎就是后来多模态模型的早期地基。更关键的是,他不是只做论文,他还把复杂的深度学习知识讲清楚了。

CS231n 之所以在 AI 教育史上地位特殊,不是因为它是一个热门课程,而是因为它把当时还偏研究导向的深度学习,第一次变成了大批工程师可以系统进入的知识入口。很多后来在工业界做视觉、做 NLP、做大模型工程的人,最早的体系化训练都绕不过这门课。

如果说 Geoffrey Hinton、Yann LeCun 那一代人推动了神经网络重回主舞台,那么像 Karpathy 这样的人,则把这套东西翻译给了真正的开发者世界。

三、OpenAI 与 Tesla:他两次进入“把模型推到现实世界”的主战场

Karpathy 2015 年加入 OpenAI,是 founding member。那时的 OpenAI 还没有后来这么强烈的产品公司气质,更像一个试图把前沿深度学习快速推向新边界的研究组织。Karpathy 在这里待的时间不算最长,但这段经历让他进入了最早一批真正接近通用模型范式的人群。

随后他去 Tesla 负责 AI 与 Autopilot 视觉团队,这一步非常关键。很多研究员的职业轨迹是在实验室里不断逼近更高指标,但 Tesla 的问题完全不同:数据来自真实道路,推理要落在车端芯片,错误成本不是 benchmark 掉几分,而是现实世界的安全问题。

这段经历让 Karpathy 身上多了一层很难替代的东西:他不是只知道怎么训练模型,也知道模型一旦进入复杂物理世界,会在哪里失真、在哪里受限、又必须如何围绕数据、标注、部署和推理闭环去重新设计。

也正因为这样,他后来再谈 LLM、Agent、自动化研究时,味道和很多纯研究背景的人不一样。他的判断里一直带着很强的工程现实感,不太容易飘到只有概念没有系统约束的地方。

四、他最被低估的贡献,可能根本不是研究,而是“把AI讲明白”

Karpathy 真正形成广泛影响力,是在成为“教育者型研究员”之后。

无论是 YouTube 上的讲解,还是后来广为流传的 microgradnanoGPTNeural Networks: Zero to Hero,他做的事情都很一致:把最热、最复杂、最容易被神化的 AI 技术,拆解成开发者可以亲手复现的东西。

这点对 AI 行业的意义其实比很多单篇论文更大。因为每一次范式转换,真正限制扩散速度的,往往不是“有没有更强模型”,而是“有没有足够多人能理解、复现、改造它”。Karpathy 的开源项目和教学内容,相当于不断降低这个门槛。

nanoGPT 就是很典型的例子。它不是一个为了生产环境而设计的庞大框架,恰恰相反,它的价值在于让人能用尽量短的路径理解 GPT 类模型的训练逻辑。很多人第一次真正搞清楚 tokenizer、embedding、attention、训练 loop,不是靠论文,而是靠 Karpathy 这种“把黑箱拆开给你看”的教学方式。

到了 2024 年他创办 Eureka Labs,这条线就更清楚了。他不是把教育当成副业,而是明确把 AI 教育当成一个可以重新设计的系统问题去做。这里面有一个很稳定的 Karpathy 风格:他总是在前沿研究和大众理解之间,主动搭一座桥。

五、从“vibe coding”到Anthropic:他影响的已经不只是模型,还有一代开发者的工作方式

Karpathy 这两年在开发者圈最出圈的,并不只是课程和代码仓库,还有他对 AI 编程工作流的命名与解释能力。无论是他提出并带火的 “vibe coding” 说法,还是他反复强调的 Agent 工作流、上下文管理、测试闭环,这些东西之所以传播得快,不只是因为概念新,而是因为他说中了很多程序员正在经历但尚未说清的变化。

这也是 Karpathy 和很多 AI 高管最大的不同。他既能进入 Anthropic 这种一线模型公司的核心训练环节,也能反过来影响最广泛的一批开发者如何理解“和模型一起工作”。

所以这次加入 Anthropic,表面上看是一次人才流动,实质上更像是三个角色重新合一:

  • 早年做视觉与深度学习研究的 Karpathy
  • 在 OpenAI 与 Tesla 做大规模工程系统的 Karpathy
  • 用课程、代码和公共表达影响开发者群体的 Karpathy

Anthropic 拿到的,不只是一个能做研究的人,更是一个知道怎样把研究转成工程,再把工程经验转成方法论的人。

六、为什么这条新闻值得单独写,而不只是“某某加入某公司”

普通的人事新闻,写法通常很简单:谁加入了谁,负责什么,意味着什么。但 Karpathy 这种人不太适合这么写,因为真正重要的问题不是“他去了 Anthropic”,而是“为什么每当 AI 进入一个新阶段,这个人总会出现在附近”。

答案大概有三点。

第一,他总是靠近真正决定下一阶段能力边界的地方。早年是深度学习和视觉,后来是自动驾驶与大规模部署,再后来是大模型教育与开发者工作流,现在则是 Claude 的预训练。

第二,他有很强的“中间层能力”。很多人能做前沿研究,但不擅长把它翻译给工程团队;也有人能做产品,但不理解底层训练发生了什么。Karpathy 稀缺就稀缺在这里,他经常扮演的是连接研究、系统和开发者认知的那一层。

第三,他对行业的贡献并不只体现在供职过哪些公司,还体现在他重塑了很多人学习 AI、写 AI、理解 AI 的方式。一个能解释前沿技术的人,某种程度上也是在定义行业共识。

结语

Anthropic 这次招到 Karpathy,短期看当然会被理解为前沿模型竞赛中的一次重要加码,尤其是在预训练这种最核心的基础环节上。这个判断没问题。

但如果把时间线拉长一点,这条新闻真正有意思的地方在于,它再次提醒了我们:Karpathy 的分量,从来不只是“某家明星公司的明星研究员”。他更像是过去十多年 AI 演化史中的一个稳定路标。研究热潮起来时,他在;模型开始大规模落地时,他在;AI 教育和开发者工作流重构时,他也在。

现在他去了 Anthropic,负责 Claude 最底层的预训练工作。与其说这只是一次跳槽,不如说这是一个一直在塑造 AI 叙事的人,再次回到了最靠近下一轮能力源头的位置。

分享到