你不是在用 Agent,你是在带一个"AI 初级工程师"团队

Tech Lead 带队

过去一年,很多人学会了一个新动作:把需求往 Claude、Cursor、Codex 里一丢,等它吐代码、吐方案、吐 PR。刚开始,所有人都觉得自己变快了。页面写得更快,脚本补得更快,测试样例生成得更快,连那些以前嫌麻烦、一直拖着不做的小修小补,也终于有人——或者说,有"东西"——帮你做了。

但真正进入生产环境后,很多团队很快碰到了同一个现实:写代码这件事变快了,交付并没有等比例变快。PR 变多了,review 变长了,测试压力更大了,返工更多了,团队里最贵的那批人,开始把时间花在"确认 AI 有没有闯祸"上,而不是继续往前推进关键设计。Faros AI 的研究很直接:高 AI 采用团队里,任务完成数和合并 PR 数都上去了,但 review 时间增加了 91%,PR 平均体量涨了 154%,bug 也在增加。Google 的 DORA 2025 报告更一针见血:AI 在软件开发里的主要作用,不是魔法,而是放大器。组织本来好的地方会被放大,组织本来烂的地方,也会被更快放大。(faros.ai)

所以,今天真正拉开差距的,不再是谁 prompt 写得更花,而是谁先完成了角色切换

你以为自己还在做一个 IC,一个拿着高级自动补全工具的工程师;但实际上,Agent 时代更适合你的身份,不是 coder,而是 tech lead

这不是一句漂亮话,而是越来越接近工程现实。Anthropic 在研究自己内部工程师如何使用 Claude 时发现,大家并没有把大量工作"全权外包"给 AI。相反,超过一半的人只能把 0% 到 20% 的工作"完全委托"出去;绝大多数高价值使用,仍然是人类在主动监督、反复校验、迭代协作。与此同时,很多工程师已经把自己的工作描述为"管理 AI 系统",甚至有人说,自己 70% 以上的时间都在做 code reviewer / reviser,而不是从零写代码。这已经不是"我用 AI 辅助我写代码",而是"我定义方向,AI 负责执行,我对结果负责"。(Anthropic)

这正是 tech lead 的思维。

一个成熟的 tech lead,不会上来就说"给我把这个系统重构一下"。他会先把问题拆清楚:边界是什么,假设是什么,风险在哪,先验证哪一条路,失败了如何止损,哪些结论要沉淀成团队资产。换句话说,lead 管的不是手,而是任务结构、验证机制和决策节奏

而今天多数人用 Agent 的方式,恰好相反。

他们把 AI 当一个无限耐心、永不抱怨、反应极快的"自己"。于是遇到问题就整包扔过去,让它先试;不行了再继续补 prompt;还不行就自己收拾残局。表面上看,这叫高效协作;本质上,这更像把一个刚入职两周的初级工程师单独扔进复杂项目,然后期待他自动长出架构感、业务感和边界意识。

结果当然是:它非常努力,也非常会生成,但它经常在错误的方向上高强度勤奋

为什么真正的高产出者会更像 tech lead?因为他们最先意识到,Agent 的核心问题根本不是"能不能做",而是"在什么前提下做、做到什么程度、怎么判断它做对了"。

所以第一步,不是写 prompt,而是先列假设

例如你要做一个支付链路问题排查,差的用法是:"帮我看看为什么回调失败。"好的用法则是:先把候选原因列出来——签名不一致、重试逻辑异常、队列堆积、第三方超时、环境配置偏差——再让 Agent 按这个假设树逐项验证。这样做的价值,不只是减少瞎试,而是把 AI 从"想到哪儿试到哪儿"的蛮力模式,切换到"围绕假设收集证据"的工程模式。Anthropic 自己也观察到,工程师更愿意把任务交给 Claude 的场景,往往是容易验证、边界清晰、自包含、低风险的任务;而复杂、上下文浓、tacit knowledge 很重的任务,如果没有额外引导,就更容易拖慢人。(Anthropic)

第二步,不要迷信长上下文,要学会把推理链写进文件,而不是赌它永远记得

Anthropic 在 context engineering 的文章里讲得非常清楚:context 是有限资源,而且会"腐烂"。上下文越长,模型对信息的精确召回就越容易下降;在长时任务里,真正有效的做法不是无上限堆 tokens,而是做上下文治理——压缩、清理、外部记忆、子代理分工。Anthropic 甚至明确建议,在长时多轮工作里,把阶段性结果写入外部 memory,让新会话或新 subagent 继续接力;他们的多代理研究系统也采用了把结果写入文件系统、减少"传话游戏"的做法。(Anthropic)

这背后的意思很简单:context window 是工作记忆,不是组织记忆。你不能把团队方法论、排障路径、关键约束、失败结论,全寄托在一次会话的"它应该还记得"。真正成熟的做法,是把这些内容外化成 .md、checklist、runbook、skill、template,让 Agent 每次都站在同一套方法上工作,而不是每次重新"临场发挥"。

第三步,要给 Agent 设定止损机制

很多人以为 AI 最大的问题是不会做,实际上更常见的问题是:它会沿着一条不对的路,越做越多,越改越深,最后把你拖进一个巨大但错误的 diff 里。优秀 tech lead 带新人时,不会允许同一路径连续失败三次还继续硬撞;他会要求换思路、换拆法、换验证点。放到 Agent 身上也一样:同方向失败两次,就该强制切路,不是继续追问"再试一次"。这类"失败阈值"虽然不是某份报告里的统计指标,但它和 Anthropic、DORA、METR 共同指出的问题完全一致:**AI 最大的隐性成本,不是生成,而是验证与返工。**如果你不主动管理探索路径,Agent 会把大量 token 和时间烧在错误分支上。(faros.ai)

第四步,把重复流程沉淀成Skill,别把经验留在自己脑子里。

Anthropic 的 Agent Skills 文档很值得反复看。它强调,Skills 不是一次性 prompt,而是可复用、文件系统式的工作流和最佳实践包,按需加载,避免每次重复喂同一套指导。说白了,Skill 的意义不是让 AI 更聪明,而是让你的组织知识变成可调用的系统能力。(Claude Platform)

这件事为什么重要?因为多数团队今天的所谓"AI 经验",其实还停留在个人手感层面。谁比较会用,就自己更快;换个人就失灵;换个项目就重来;过两周,连自己都记不清上次是怎么跑通的。这样的效率不是组织效率,只是个体天赋。真正的 tech lead 思维,是把"我会"变成"团队可复用",把"这次搞定了"变成"以后默认这么做"。

所以,Agent 时代最重要的升级,不是换更贵的模型,不是追更长的 context,也不是背更多 prompt 模板。真正的升级是:你要从"亲自下场写的人",变成"定义任务、分配上下文、建立验证、沉淀方法的人"

这也是为什么 Anthropic 那 14% 的 power users 值得重视。关键不在于他们是不是更懂提示词,而在于他们更早完成了角色重构。他们不再把 AI 当搜索框、补全器、许愿机,而是把它当一个能力很强、速度极快、但仍然需要被管理的初级工程师团队。方向由人定,执行让 AI 跑,出了偏差改策略,不是一味换模型。Anthropic 自己也承认,生产力提升很可能来自**“战略性的 AI 委派能力”**。这句话翻译成人话就是:不是工具红利先兑现,而是管理能力先兑现。(Anthropic)

所以,今天真正该问的,不是"哪个 Agent 最强",而是:

你有没有开始像 tech lead 一样使用 Agent?

如果没有,那么再强的模型,也大概率只会让你更快地产生更多待 review 的东西。
如果有,那么你得到的就不只是一个更快的补全器,而是一支真正能被你带起来的"AI 工程团队"。

分享到