普通人如何进入头部 AI 团队:别挤正门,去做 LLM 栈两头

摘要:Gemini 预训练团队负责人给出的建议很直接:头部 AI 实验室的正门越来越窄,普通人更现实的打法,是绕到 LLM 栈的底层和上层,用数学、工程、开源作品和长期死磕证明自己。

普通人进入头部 AI 团队的两条路径:底层系统优化与上层 Agent 工程

Gemini 预训练团队负责人在五月份写过一篇《如何进入头部 AI 团队/实验室》,这类文章值得认真读,不是因为它提供了什么神奇捷径,而是因为它把现实讲得很清楚:前沿实验室的招聘已经卷到极高密度,能从正门进去的人,大多出自顶尖本科或博士项目,数学功底硬,方向打得准,还能长期保持高强度投入。

对大多数普通人来说,硬挤正面并不是最优策略。更务实的打法,是绕到 LLM 技术栈的两头:要么沉下去做底层系统,要么浮上来做上层 Agent 和自动化实验。前者包括 kernel 优化、推理加速、量化、内存带宽和算子融合;后者包括 agent loop、工具调用、实验设计、评估器、状态管理和真实业务工作流。

这两端有一个共同点:它们离真实需求足够近,能用作品说话。

一、别只说“我对 AI 感兴趣”

头部实验室并不缺“对 AI 感兴趣”的人。真正有价值的问题是:你能解决哪一段栈上的具体问题?

如果走底层,就别停在泛泛而谈的“我想做模型优化”。你需要能说清 FlashAttention 为什么快,GPU 计算瓶颈什么时候在算力、什么时候在内存带宽,量化为什么会影响精度和吞吐,kernel fusion 到底减少了什么开销。最好能自己写一个小 kernel,跑出 benchmark,再解释性能变化。

如果走上层,也不要只说“我想做 Agent”。实验室和应用团队真正关心的是:Agent 怎么规划任务,怎么调用工具,怎么管理上下文,怎么处理失败,怎么被评估,怎么不越权,怎么把结果接回真实系统。一个能跑通的 agent 工作流,比十页概念 PPT 有用得多。

方向要具体到可以动手,具体到可以复现,具体到别人一看代码就知道你不是只会转述概念。

二、数学底子是分水岭

工程作品能让人看见你,但数学能力决定你能走多远。

大模型不是玄学。优化、概率、线性代数、信息论、数值稳定性、scaling laws、MoE 路由、训练动态,这些东西最终都会回到数学成熟度。没有数学底子,也可以做很多工程工作,但很难真正参与前沿模型的判断和设计。

这里没有太多捷径。证明题、理论课程、论文推导、手算 scaling law、理解 loss 曲线背后的训练逻辑,这些都需要硬磨。AI 工具可以帮你查资料、写代码、整理笔记,但不能替你形成数学直觉。它能加速你已经理解的东西,不能让你跳过理解本身。

这也是普通人最容易误判的地方:以为能调 API、会用框架、能搭 demo,就已经进入 AI 研发。实际上那只是入口。过了数学这一关,才开始接近研究者;过不去,大概率只能停留在操作层。

三、从边角料干起,反而更容易破局

很多人一上来就想“我要训练下一个大模型”。这通常不现实。前沿模型训练需要算力、数据、团队、工程体系和长期试错,不是个人靠热情就能复刻。

但 LLM 栈里有很多“边角料”非常值钱。

例如 kernel 编程。一个注意力算子、一个矩阵乘变体、一个 KV cache 优化、一个低比特量化路径,可能看起来很窄,但它直接影响训练和推理成本。又如推理系统,batching、prefill/decode 分离、显存管理、长上下文缓存、并发调度,每一个点都能做出真实 benchmark。

再比如 Agent 工具链。今天很多团队都在做编码 Agent、科研 Agent、数据分析 Agent、业务流程 Agent,但真正稳定的系统并不多。谁能把任务拆解、工具调用、状态持久化、权限边界、评估器和人类确认做成可复用框架,谁就有机会拿出实打实的成果。

所谓“边角料”,只是看起来不够宏大。对真实团队来说,这些活天天都缺人。

四、开源项目比简历更有说服力

进入头部团队,简历当然重要,但作品更硬。

一个好的开源项目至少能证明四件事:你能把问题定义清楚;你能写出别人能运行的代码;你能用 benchmark 或实验结果证明改进;你能持续维护,而不是发一个半成品就消失。

对底层方向,可以做小而完整的复现:实现一个简化版 FlashAttention 思路,写一个 Pallas kernel 做算子融合,对比不同 batch 和序列长度下的前向速度,解释为什么快、什么时候不快。对上层方向,可以做一个面向真实任务的 Agent:比如自动读论文、生成实验计划、跑小规模实验、记录结果、用 evaluator 判断是否继续。

不要害怕项目小。小项目如果边界清楚、结果可复现、文档认真、实验扎实,比一个空泛的大框架更有价值。

五、论文和复现必须两手抓

只读论文容易飘,只写代码容易窄。要进入真正的 AI 研发语境,必须把两者连起来。

读 FlashAttention,不只是知道它是注意力优化,而是理解 IO-aware 的问题设定和数据移动成本。读 SnapKV,不只是记住它能压缩 KV cache,而是理解长上下文推理中的瓶颈。读 Chinchilla scaling laws,不只是背“数据也很重要”,而是能手推计算最优背后的取舍。

复现则能把论文里的抽象结论变成肌肉记忆。一个能跑通的复现,往往会暴露论文摘要里看不到的细节:数值稳定性、数据预处理、超参敏感性、硬件限制、框架差异、评估口径。这些细节正是实验室最在意的工程判断。

六、半年复盘一次方向

AI 变化太快,方向不能一选就不动。

每隔半年,应该问自己几个问题:我现在做的东西是在真实需求上,还是在追热点?这个方向未来两三年会变得更重要,还是会被工具平台吞掉?我现在的作品能不能被别人运行、引用、比较?我是在积累可迁移能力,还是只是在熟悉某个临时 API?

底层方向的长期价值在于成本和效率永远重要。模型越大、上下文越长、推理越普及,kernel、量化、调度和内存管理就越关键。上层方向的长期价值在于,模型能力必须进入流程才能产生经济价值。Agent、eval、工具链和系统集成,会越来越像软件工程的新基础设施。

方向不怕基础,怕的是看不到通向哪里的路径。

进入头部 AI 团队需要同时积累数学基础、开源作品和长期投入

七、三组具体练习

如果要把建议落到行动上,可以从三组练习开始。

第一,用 JAX/Flax 从零写一个 1000 万参数左右的 Transformer,在 Colab TPU 上跑通加法任务。这个练习不追求模型大,而是让你理解 tokenizer、位置编码、attention、训练循环、loss、优化器和硬件执行之间的关系。

第二,手推 Chinchilla scaling laws,对比稠密模型和 MoE 的训练与推理取舍。重点不是得到一个漂亮公式,而是理解为什么参数、数据、计算量和激活参数会共同决定模型路线。

第三,写一个 Pallas kernel 做算子融合,做前向加速实验,并说清楚原因。哪怕只是一个很小的 fusion,也要记录基线、实验环境、输入规模、加速比和失败情况。

这三组练习覆盖了模型、理论和系统。做完不代表能进头部实验室,但至少证明你不是只会消费 AI 信息。

八、最终还是本事、作品和死磕

名校背景当然有用。顶尖实验室的筛选机制天然偏向已经被强信号验证过的人,这是现实。

但对出身普通的人来说,真正可控的部分仍然是本事、作品和持续投入。选一个足够真实的方向,做出可复现的开源项目,写出能解释清楚的技术博客,把实验数据、失败记录和改进过程摆出来。然后每隔一段时间复盘方向,继续往更难、更真实的问题推进。

这不是三个月速成路线,更像五到十年的持久战。

头部 AI 团队不缺会用模型的人,缺的是能把模型能力推进一厘米的人。那一厘米可能是一个更快的 kernel,一个更稳的推理路径,一个更可靠的 Agent loop,一个更好的 evaluator,也可能是一套能让实验自动迭代的工程系统。

普通人的机会,就藏在这些具体、辛苦、可验证的地方。

分享到