你不是在用 Agent，你是在带一个"AI 初级工程师"团队

2026-04-16

AI Agent, Anthropic, Skills

摘要：过去一年，很多人学会了一个新动作：把需求往 Claude、Cursor、Codex 里一丢，等它吐代码、吐方案、吐 PR。刚开始，所有人都觉得自己变快了。页面写得更快，脚本补得更快，测试样例生成得更快，连那些以前嫌麻烦、一直拖着不做的小修小补，也终于有人——或者说，有"东西"——帮你做了。但真正进入生产环境后，很多团队很快碰到了同一个现实：写代码这件事变快了，交付并没有等比例变快。PR 变多了，review 变长了，测试压力更大了，返工更多了，团队里最贵的那批人，开始把时间花在"确认 AI 有没有闯祸"上，而不是继续往前推进关键设计。Faros AI 的研究很直接：高 AI 采用团队里，任务完成数和合并 PR 数都上去了，但 review 时间增加了 91%，PR 平均体量涨了 154%，bug 也在增加。Google 的 DORA 2025 报告更一针见血：AI 在软件开发里的主要作用，不是魔法，而是放大器。组织本来好的地方会被放大，组织本来烂的地方，也会被更快放大。(faros.ai)

Tech Lead 带队

过去一年，很多人学会了一个新动作：把需求往 Claude、Cursor、Codex 里一丢，等它吐代码、吐方案、吐 PR。刚开始，所有人都觉得自己变快了。页面写得更快，脚本补得更快，测试样例生成得更快，连那些以前嫌麻烦、一直拖着不做的小修小补，也终于有人——或者说，有"东西"——帮你做了。

但真正进入生产环境后，很多团队很快碰到了同一个现实：写代码这件事变快了，交付并没有等比例变快。PR 变多了，review 变长了，测试压力更大了，返工更多了，团队里最贵的那批人，开始把时间花在"确认 AI 有没有闯祸"上，而不是继续往前推进关键设计。Faros AI 的研究很直接：高 AI 采用团队里，任务完成数和合并 PR 数都上去了，但 review 时间增加了 91%，PR 平均体量涨了 154%，bug 也在增加。Google 的 DORA 2025 报告更一针见血：AI 在软件开发里的主要作用，不是魔法，而是放大器。组织本来好的地方会被放大，组织本来烂的地方，也会被更快放大。(faros.ai)

所以，今天真正拉开差距的，不再是谁 prompt 写得更花，而是谁先完成了角色切换。

你以为自己还在做一个 IC，一个拿着高级自动补全工具的工程师；但实际上，Agent 时代更适合你的身份，不是 coder，而是 tech lead。

这不是一句漂亮话，而是越来越接近工程现实。Anthropic 在研究自己内部工程师如何使用 Claude 时发现，大家并没有把大量工作"全权外包"给 AI。相反，超过一半的人只能把 0% 到 20% 的工作"完全委托"出去；绝大多数高价值使用，仍然是人类在主动监督、反复校验、迭代协作。与此同时，很多工程师已经把自己的工作描述为"管理 AI 系统"，甚至有人说，自己 70% 以上的时间都在做 code reviewer / reviser，而不是从零写代码。这已经不是"我用 AI 辅助我写代码"，而是"我定义方向，AI 负责执行，我对结果负责"。(Anthropic)

这正是 tech lead 的思维。

一个成熟的 tech lead，不会上来就说"给我把这个系统重构一下"。他会先把问题拆清楚：边界是什么，假设是什么，风险在哪，先验证哪一条路，失败了如何止损，哪些结论要沉淀成团队资产。换句话说，lead 管的不是手，而是任务结构、验证机制和决策节奏。

而今天多数人用 Agent 的方式，恰好相反。

他们把 AI 当一个无限耐心、永不抱怨、反应极快的"自己"。于是遇到问题就整包扔过去，让它先试；不行了再继续补 prompt；还不行就自己收拾残局。表面上看，这叫高效协作；本质上，这更像把一个刚入职两周的初级工程师单独扔进复杂项目，然后期待他自动长出架构感、业务感和边界意识。

结果当然是：它非常努力，也非常会生成，但它经常在错误的方向上高强度勤奋。

为什么真正的高产出者会更像 tech lead？因为他们最先意识到，Agent 的核心问题根本不是"能不能做"，而是"在什么前提下做、做到什么程度、怎么判断它做对了"。

所以第一步，不是写 prompt，而是先列假设。

例如你要做一个支付链路问题排查，差的用法是："帮我看看为什么回调失败。"好的用法则是：先把候选原因列出来——签名不一致、重试逻辑异常、队列堆积、第三方超时、环境配置偏差——再让 Agent 按这个假设树逐项验证。这样做的价值，不只是减少瞎试，而是把 AI 从"想到哪儿试到哪儿"的蛮力模式，切换到"围绕假设收集证据"的工程模式。Anthropic 自己也观察到，工程师更愿意把任务交给 Claude 的场景，往往是容易验证、边界清晰、自包含、低风险的任务；而复杂、上下文浓、tacit knowledge 很重的任务，如果没有额外引导，就更容易拖慢人。(Anthropic)

第二步，不要迷信长上下文，要学会把推理链写进文件，而不是赌它永远记得。

Anthropic 在 context engineering 的文章里讲得非常清楚：context 是有限资源，而且会"腐烂"。上下文越长，模型对信息的精确召回就越容易下降；在长时任务里，真正有效的做法不是无上限堆 tokens，而是做上下文治理——压缩、清理、外部记忆、子代理分工。Anthropic 甚至明确建议，在长时多轮工作里，把阶段性结果写入外部 memory，让新会话或新 subagent 继续接力；他们的多代理研究系统也采用了把结果写入文件系统、减少"传话游戏"的做法。(Anthropic)

这背后的意思很简单：context window 是工作记忆，不是组织记忆。你不能把团队方法论、排障路径、关键约束、失败结论，全寄托在一次会话的"它应该还记得"。真正成熟的做法，是把这些内容外化成 .md、checklist、runbook、skill、template，让 Agent 每次都站在同一套方法上工作，而不是每次重新"临场发挥"。

第三步，要给 Agent 设定止损机制。

很多人以为 AI 最大的问题是不会做，实际上更常见的问题是：它会沿着一条不对的路，越做越多，越改越深，最后把你拖进一个巨大但错误的 diff 里。优秀 tech lead 带新人时，不会允许同一路径连续失败三次还继续硬撞；他会要求换思路、换拆法、换验证点。放到 Agent 身上也一样：同方向失败两次，就该强制切路，不是继续追问"再试一次"。这类"失败阈值"虽然不是某份报告里的统计指标，但它和 Anthropic、DORA、METR 共同指出的问题完全一致：**AI 最大的隐性成本，不是生成，而是验证与返工。**如果你不主动管理探索路径，Agent 会把大量 token 和时间烧在错误分支上。(faros.ai)

第四步，把重复流程沉淀成Skill，别把经验留在自己脑子里。

Anthropic 的 Agent Skills 文档很值得反复看。它强调，Skills 不是一次性 prompt，而是可复用、文件系统式的工作流和最佳实践包，按需加载，避免每次重复喂同一套指导。说白了，Skill 的意义不是让 AI 更聪明，而是让你的组织知识变成可调用的系统能力。(Claude Platform)

这件事为什么重要？因为多数团队今天的所谓"AI 经验"，其实还停留在个人手感层面。谁比较会用，就自己更快；换个人就失灵；换个项目就重来；过两周，连自己都记不清上次是怎么跑通的。这样的效率不是组织效率，只是个体天赋。真正的 tech lead 思维，是把"我会"变成"团队可复用"，把"这次搞定了"变成"以后默认这么做"。

所以，Agent 时代最重要的升级，不是换更贵的模型，不是追更长的 context，也不是背更多 prompt 模板。真正的升级是：你要从"亲自下场写的人"，变成"定义任务、分配上下文、建立验证、沉淀方法的人"。

这也是为什么 Anthropic 那 14% 的 power users 值得重视。关键不在于他们是不是更懂提示词，而在于他们更早完成了角色重构。他们不再把 AI 当搜索框、补全器、许愿机，而是把它当一个能力很强、速度极快、但仍然需要被管理的初级工程师团队。方向由人定，执行让 AI 跑，出了偏差改策略，不是一味换模型。Anthropic 自己也承认，生产力提升很可能来自**“战略性的 AI 委派能力”**。这句话翻译成人话就是：不是工具红利先兑现，而是管理能力先兑现。(Anthropic)

所以，今天真正该问的，不是"哪个 Agent 最强"，而是：

你有没有开始像 tech lead 一样使用 Agent？

如果没有，那么再强的模型，也大概率只会让你更快地产生更多待 review 的东西。
如果有，那么你得到的就不只是一个更快的补全器，而是一支真正能被你带起来的"AI 工程团队"。

AI技术