AI 科学家开始组队了：AutoScientists 把科研从“单人助手”推向“自组织实验室”

2026-06-02

2026-07-03

AI代理, 多智能体, AI for Science, AI科学家, AutoScientists, 科研自动化

AutoScientists：AI 科学家开始组队

过去一年，“AI 科学家”这个概念已经不新鲜了。

从自动读论文、自动写代码，到自动跑实验、自动生成论文，很多系统都在试图证明一件事：科学研究中那些可流程化、可计算化、可验证的部分，正在被 AI 逐步接管。但 AutoScientists 这篇论文真正值得关注的地方，并不是又多了一个会写代码、会调参、会跑 benchmark 的 AI Agent，而是它把问题往前推进了一步：

科研不是一个聪明人从头想到尾，而是一群人围绕不确定问题长期协作、互相质疑、不断试错、保存失败经验、重新组织方向的过程。

这恰恰是过去很多 AI Agent 系统最薄弱的地方。

一、过去的 AI 科学家，更像“科研苦力”，不是“科研组织”

很多自动科研系统，本质上还是单线程的。

给它一个任务，它提出一个想法，改一段代码，跑一次实验，看结果好不好，再继续下一轮。这个过程当然很有价值，尤其适合机器学习调参、代码搜索、模型结构试验。但它的问题也很明显：它像一个永远不睡觉的研究生，却不像一个真正的课题组。

真实科研很少是单线推进的。

一个问题打开以后，往往会同时出现多个假设：是数据问题，还是模型问题？是特征不够，还是损失函数不合适？是优化器没调好，还是评价指标本身有偏差？一条路看起来有希望，跑了十几次以后可能进入瓶颈；另一条一开始不起眼的方向，可能因为某次失败结果反而暴露出新的突破口。

这也是科研和普通工程任务最大的区别：目标并不总是一开始就清楚，路径也不会一直稳定。

过去的多 Agent 系统虽然引入了“多人协作”，但很多仍然依赖一个中心规划者：由一个 planner 分任务，其他 agent 执行；或者由一个讨论机制让多个 agent 最后收敛到一个共识。这种架构适合做项目管理，却不一定适合做开放式科研。因为科研的关键不是尽快统一意见，而是允许多个方向并行存在，并在证据积累后动态调整资源。

AutoScientists 的核心贡献，就在于它把“科研组织结构”本身作为了算法设计对象。

二、AutoScientists 的关键：没有中央 PI，但有共享实验记忆

AutoScientists 不是简单地多开几个 agent 并行跑任务。

它设计了一个去中心化的科研团队机制：多个长期运行的智能体围绕一个共享实验状态工作，每个 agent 都可以看到当前最优模型、历史实验日志、讨论论坛、失败方向登记表，以及各团队的任务队列。

这里最重要的不是“多”，而是“共享状态”。

在一个真实课题组里，真正有价值的东西往往不是某一次成功实验，而是实验记录本。谁试过什么？为什么失败？哪个方向已经饱和？哪个看似失败的结果其实暴露了一个新机制？哪些改动只是随机种子带来的假阳性？这些信息如果没有被记录和传播，团队就会不断重复低价值劳动。

AutoScientists 把这些东西显式写进系统结构里。

它有两类核心角色：一类是 analyst agents，负责读实验日志、分析哪些方向被充分探索、哪些方向还没有试、哪些成功改动背后可能有共同机制；另一类是 experiment agents，负责领取实验任务、修改代码、训练模型、记录结果。它们不是一次性调用，而是在 heartbeat loop 中长期运行：读共享状态、行动、写回状态，再继续下一轮。

这个设计有点像把一个科研组的“组会—实验—复盘—再分组”过程机器化了。

更有意思的是，它不是一开始就固定分组。系统会先进入讨论阶段，agent 们提出候选方向、互相批评、识别搜索空间中的空白，然后形成团队。等某个方向停滞，agent 可以重新讨论，拆分、合并、重组团队，把算力转移到更有希望的方向上。

这就是论文标题里“Self-Organizing”的含义。

它不是没有工程调度，而是没有一个负责科研判断的中央智能体。真正决定研究方向的，不是某个最高级 planner，而是共享证据、局部判断和群体协商共同形成的动态结构。

三、最有价值的不是成功，而是“失败不再白费”

这篇论文里有一个特别值得工业界、科研界都认真看的点：dead-end registry，也就是失败方向登记表。

过去我们谈 AI Agent，经常强调“它能自动做什么”。但科研中还有一个同样关键的问题：它能不能知道什么不值得再做？

失败实验是科研中成本最高、也最容易被浪费的资产。很多实验没有产生正结果，但它们排除了某些假设，缩小了搜索空间，帮助团队避免重复踩坑。人类科研团队里，老研究员的价值很大一部分就体现在这里：他知道哪些路看起来漂亮但十年前已经被试烂了，哪些指标提升其实是假象，哪些参数组合一看就是局部最优附近的无效扰动。

AutoScientists 把这个经验能力机制化了。

每次实验，不管成功还是失败，都会写入日志。失败方向会被记录，包括测试了什么轴、属于哪个研究方向、性能变化如何、为什么被拒绝。后续 agent 在提出方案前会读取这些信息，减少重复探索。

这意味着 AI Agent 不再只是一个“更快的试错机器”，而开始具备一种初级的科研记忆。

从这个角度看，AutoScientists 的意义不只是提高 benchmark 分数，而是展示了一种新范式：AI 科研系统的核心资产，可能不是某个单次模型输出，而是长期积累的实验组织记忆。

未来真正有壁垒的科研 AI 系统，可能不是谁的 prompt 写得好，而是谁拥有结构化、可复用、可审计的失败知识库。

四、结果为什么值得看：不是单点炫技，而是跨任务稳定改进

论文给出了三类实验结果。

第一类是 BioML-Bench。这个 benchmark 包含 24 个端到端生物医学机器学习任务，覆盖医学影像、药物发现、单细胞组学和蛋白工程。AutoScientists 的平均 leaderboard percentile 达到 74.4%，比此前最强 AI agent 高 8.33 个百分点。尤其在药物发现方向，提升更明显。

这说明它不是只在某个玩具任务上有效，而是在多个生物医学建模场景中表现出较强的实验选择能力。

第二类是 GPT nanochat 训练优化。这个任务很有代表性：每次实验就是修改训练代码，在一张 H100 上跑 5 分钟，看验证 bits-per-byte 是否改善。相比单 Agent 的 Autoresearch，AutoScientists 在 34 次实验达到目标，而 Autoresearch 需要 65 次，接近 1.9 倍效率提升。

更关键的是，在从 AutoScientists 已经找到的强 champion 出发时，单 Agent 的 Autoresearch 做了 100 次实验没有接受任何改进，而 AutoScientists 在 93 次实验里接受了 7 个改进。这说明多团队自组织不是简单“多花 token”，而是在更难的后期搜索阶段，仍然能挖出单线程系统看不到的方向。

第三类是 ProteinGym。AutoScientists 从 Kermut 这个强基线出发，在 ACE2-Spike binding 任务上把 Spearman 相关从 0.747 提高到 0.840，相对提升 12.5%。更重要的是，它发现的方案被冻结以后，不再针对其他任务调整，直接应用到 ProteinGym 全部 217 个 DMS assay，平均 Spearman 从 0.657 提高到 0.700，相对提升 6.5%。

这点非常重要。

如果一个 AI 只是在单一开发集上过拟合，那意义有限。但一个在单任务上发现的改进方法，能够迁移到 217 个 assay 上，就说明它至少捕捉到了一些更一般的建模规律。

五、这篇论文真正打到的是“科研管理学”

很多人看这篇论文，第一反应可能是：这不就是多 Agent 吗？

但它真正有启发性的地方，其实是把科研中的组织机制转译成了计算机制。

科研效率不只取决于单个研究者聪不聪明，还取决于团队怎么协作。谁负责提出假设？谁负责质疑？谁负责动手实验？失败结果怎么沉淀？组会什么时候开？什么时候继续坚持，什么时候换方向？一个课题组为什么会陷入局部最优？为什么有些团队会在同一个坑里反复浪费几年？

AutoScientists 等于给这些问题提供了一个机器版本的答案。

它将科研团队拆成四层结构：当前 champion，实验日志，共享论坛，团队本地状态。它将科研行为拆成两个循环：讨论与执行。它将科研角色拆成两类：提出和分析假设的人，执行和验证实验的人。它将科研进展拆成三种判断：成功提升、失败排除、停滞后重组。

这套机制放在 AI for Science 里很自然，放在企业研发里同样有启发。

比如工业软件研发、材料配方优化、工艺参数寻优、仿真模型校准、设备故障诊断，很多问题都不是一次性问答，而是长期实验搜索。过去企业做这些事，靠工程师经验、项目组会议和大量 Excel 记录。未来完全可以变成“企业研发 Agent 团队”：有的 agent 负责生成工艺假设，有的负责调用仿真软件，有的负责分析失败案例，有的负责维护实验知识库，有的负责把阶段性结果写成技术报告。

换句话说，AutoScientists 不是只属于生物医学实验室，它其实在提示一个更大的方向：科研组织、工程研发组织、工业试验组织，都可能被 Agent 化。

六、但别误解：这还不是“AI 独立发现科学定律”

当然，这篇论文也不能被过度神化。

首先，它仍然主要发生在计算实验领域。无论是 BioML-Bench、GPT 训练优化，还是 ProteinGym，本质上都属于可以自动运行、自动评价、自动比较的计算任务。它离真正的湿实验室、复杂物理实验、临床验证还有距离。其次，它的成本并不低。论文明确指出，AutoScientists 并不是为了比单 Agent 更省 LLM 调用次数。因为多个 agent 要讨论、批评、重组、维护共享状态，所以 token 消耗更高。它追求的是在固定实验算力预算下，提高实验选择效率，而不是降低所有成本。

第三，它仍然依赖强工具链和强后端。论文实现中使用 Claude Code 和 Claude Sonnet 4.6，实验还用到 H100 GPU。对于普通实验室和企业来说，真正落地时需要考虑权限、安全、数据闭环、成本控制和可审计性。

第四，这仍是一篇预印本。它展示了非常漂亮的方向，但结果还需要更多独立复现，尤其是在更大规模 GPU 集群、更长运行周期、更复杂真实科研任务中的稳定性。

所以，AutoScientists 不是终点，而更像一个信号。

它告诉我们：AI 科研系统的竞争，正在从“模型会不会回答”进入“组织能不能持续发现”。

七、从 AI 助手到 AI 课题组

过去我们把 AI 放在科研里，常常把它看成助手：帮我查资料，帮我写代码，帮我总结文献，帮我画图，帮我润色论文。

AutoScientists 代表的是另一种想象：AI 不只是助手，而是一个可组织、可分工、可复盘、可长期运行的虚拟课题组。

这个课题组未必有真正的人类创造力，也未必理解科学意义。但它可以持续提出假设，持续运行实验，持续记录失败，持续围绕证据重组方向。它最强的地方不是灵感，而是耐心；不是权威判断，而是结构化试错；不是替代科学家，而是把科学家的大量低层循环自动化。

这对未来科研人员的影响非常直接。

科研人员的价值会从“亲自做每一个实验细节”，转向“定义好问题、设计好约束、选择好评价指标、判断哪些结果有科学意义”。人类 PI 的角色也可能变化：不再只是安排研究生干活，而是设计一套能让人类、AI、实验设备、数据平台共同协作的研究操作系统。

最终，AI 科学家的突破可能不在于它像不像一个天才，而在于它能不能像一个好课题组那样工作。

AutoScientists 给出的答案是：至少在计算科学实验里，这件事已经开始发生了。

这才是这篇论文真正值得关注的地方。

参考信息

arXiv：AutoScientists: Self-Organizing Agent Teams for Long-Running Scientific Experimentation
Hugging Face Papers：AutoScientists paper page
GitHub：mims-harvard/AutoScientists
gihyo.jp：科学研究向け AI エージェントチーム「AutoScientists」公開

会员专区