AI 科学家开始组队了:AutoScientists 把科研从“单人助手”推向“自组织实验室”

AutoScientists:AI 科学家开始组队

过去一年,“AI 科学家”这个概念已经不新鲜了。

从自动读论文、自动写代码,到自动跑实验、自动生成论文,很多系统都在试图证明一件事:科学研究中那些可流程化、可计算化、可验证的部分,正在被 AI 逐步接管。但 AutoScientists 这篇论文真正值得关注的地方,并不是又多了一个会写代码、会调参、会跑 benchmark 的 AI Agent,而是它把问题往前推进了一步:

科研不是一个聪明人从头想到尾,而是一群人围绕不确定问题长期协作、互相质疑、不断试错、保存失败经验、重新组织方向的过程。

这恰恰是过去很多 AI Agent 系统最薄弱的地方。

一、过去的 AI 科学家,更像“科研苦力”,不是“科研组织”

很多自动科研系统,本质上还是单线程的。

给它一个任务,它提出一个想法,改一段代码,跑一次实验,看结果好不好,再继续下一轮。这个过程当然很有价值,尤其适合机器学习调参、代码搜索、模型结构试验。但它的问题也很明显:它像一个永远不睡觉的研究生,却不像一个真正的课题组。

真实科研很少是单线推进的。

一个问题打开以后,往往会同时出现多个假设:是数据问题,还是模型问题?是特征不够,还是损失函数不合适?是优化器没调好,还是评价指标本身有偏差?一条路看起来有希望,跑了十几次以后可能进入瓶颈;另一条一开始不起眼的方向,可能因为某次失败结果反而暴露出新的突破口。

这也是科研和普通工程任务最大的区别:目标并不总是一开始就清楚,路径也不会一直稳定。

过去的多 Agent 系统虽然引入了“多人协作”,但很多仍然依赖一个中心规划者:由一个 planner 分任务,其他 agent 执行;或者由一个讨论机制让多个 agent 最后收敛到一个共识。这种架构适合做项目管理,却不一定适合做开放式科研。因为科研的关键不是尽快统一意见,而是允许多个方向并行存在,并在证据积累后动态调整资源。

AutoScientists 的核心贡献,就在于它把“科研组织结构”本身作为了算法设计对象。

二、AutoScientists 的关键:没有中央 PI,但有共享实验记忆

AutoScientists 不是简单地多开几个 agent 并行跑任务。

它设计了一个去中心化的科研团队机制:多个长期运行的智能体围绕一个共享实验状态工作,每个 agent 都可以看到当前最优模型、历史实验日志、讨论论坛、失败方向登记表,以及各团队的任务队列。

这里最重要的不是“多”,而是“共享状态”。

在一个真实课题组里,真正有价值的东西往往不是某一次成功实验,而是实验记录本。谁试过什么?为什么失败?哪个方向已经饱和?哪个看似失败的结果其实暴露了一个新机制?哪些改动只是随机种子带来的假阳性?这些信息如果没有被记录和传播,团队就会不断重复低价值劳动。

AutoScientists 把这些东西显式写进系统结构里。

它有两类核心角色:一类是 analyst agents,负责读实验日志、分析哪些方向被充分探索、哪些方向还没有试、哪些成功改动背后可能有共同机制;另一类是 experiment agents,负责领取实验任务、修改代码、训练模型、记录结果。它们不是一次性调用,而是在 heartbeat loop 中长期运行:读共享状态、行动、写回状态,再继续下一轮。

这个设计有点像把一个科研组的“组会—实验—复盘—再分组”过程机器化了。

更有意思的是,它不是一开始就固定分组。系统会先进入讨论阶段,agent 们提出候选方向、互相批评、识别搜索空间中的空白,然后形成团队。等某个方向停滞,agent 可以重新讨论,拆分、合并、重组团队,把算力转移到更有希望的方向上。

这就是论文标题里“Self-Organizing”的含义。

它不是没有工程调度,而是没有一个负责科研判断的中央智能体。真正决定研究方向的,不是某个最高级 planner,而是共享证据、局部判断和群体协商共同形成的动态结构。

三、最有价值的不是成功,而是“失败不再白费”

这篇论文里有一个特别值得工业界、科研界都认真看的点:dead-end registry,也就是失败方向登记表。

过去我们谈 AI Agent,经常强调“它能自动做什么”。但科研中还有一个同样关键的问题:它能不能知道什么不值得再做?

失败实验是科研中成本最高、也最容易被浪费的资产。很多实验没有产生正结果,但它们排除了某些假设,缩小了搜索空间,帮助团队避免重复踩坑。人类科研团队里,老研究员的价值很大一部分就体现在这里:他知道哪些路看起来漂亮但十年前已经被试烂了,哪些指标提升其实是假象,哪些参数组合一看就是局部最优附近的无效扰动。

AutoScientists 把这个经验能力机制化了。

每次实验,不管成功还是失败,都会写入日志。失败方向会被记录,包括测试了什么轴、属于哪个研究方向、性能变化如何、为什么被拒绝。后续 agent 在提出方案前会读取这些信息,减少重复探索。

这意味着 AI Agent 不再只是一个“更快的试错机器”,而开始具备一种初级的科研记忆。

从这个角度看,AutoScientists 的意义不只是提高 benchmark 分数,而是展示了一种新范式:AI 科研系统的核心资产,可能不是某个单次模型输出,而是长期积累的实验组织记忆。

未来真正有壁垒的科研 AI 系统,可能不是谁的 prompt 写得好,而是谁拥有结构化、可复用、可审计的失败知识库。

四、结果为什么值得看:不是单点炫技,而是跨任务稳定改进

论文给出了三类实验结果。

第一类是 BioML-Bench。这个 benchmark 包含 24 个端到端生物医学机器学习任务,覆盖医学影像、药物发现、单细胞组学和蛋白工程。AutoScientists 的平均 leaderboard percentile 达到 74.4%,比此前最强 AI agent 高 8.33 个百分点。尤其在药物发现方向,提升更明显。

这说明它不是只在某个玩具任务上有效,而是在多个生物医学建模场景中表现出较强的实验选择能力。

第二类是 GPT nanochat 训练优化。这个任务很有代表性:每次实验就是修改训练代码,在一张 H100 上跑 5 分钟,看验证 bits-per-byte 是否改善。相比单 Agent 的 Autoresearch,AutoScientists 在 34 次实验达到目标,而 Autoresearch 需要 65 次,接近 1.9 倍效率提升。

更关键的是,在从 AutoScientists 已经找到的强 champion 出发时,单 Agent 的 Autoresearch 做了 100 次实验没有接受任何改进,而 AutoScientists 在 93 次实验里接受了 7 个改进。这说明多团队自组织不是简单“多花 token”,而是在更难的后期搜索阶段,仍然能挖出单线程系统看不到的方向。

第三类是 ProteinGym。AutoScientists 从 Kermut 这个强基线出发,在 ACE2-Spike binding 任务上把 Spearman 相关从 0.747 提高到 0.840,相对提升 12.5%。更重要的是,它发现的方案被冻结以后,不再针对其他任务调整,直接应用到 ProteinGym 全部 217 个 DMS assay,平均 Spearman 从 0.657 提高到 0.700,相对提升 6.5%。

这点非常重要。

如果一个 AI 只是在单一开发集上过拟合,那意义有限。但一个在单任务上发现的改进方法,能够迁移到 217 个 assay 上,就说明它至少捕捉到了一些更一般的建模规律。

五、这篇论文真正打到的是“科研管理学”

很多人看这篇论文,第一反应可能是:这不就是多 Agent 吗?

但它真正有启发性的地方,其实是把科研中的组织机制转译成了计算机制。

科研效率不只取决于单个研究者聪不聪明,还取决于团队怎么协作。谁负责提出假设?谁负责质疑?谁负责动手实验?失败结果怎么沉淀?组会什么时候开?什么时候继续坚持,什么时候换方向?一个课题组为什么会陷入局部最优?为什么有些团队会在同一个坑里反复浪费几年?

AutoScientists 等于给这些问题提供了一个机器版本的答案。

它将科研团队拆成四层结构:当前 champion,实验日志,共享论坛,团队本地状态。它将科研行为拆成两个循环:讨论与执行。它将科研角色拆成两类:提出和分析假设的人,执行和验证实验的人。它将科研进展拆成三种判断:成功提升、失败排除、停滞后重组。

这套机制放在 AI for Science 里很自然,放在企业研发里同样有启发。

比如工业软件研发、材料配方优化、工艺参数寻优、仿真模型校准、设备故障诊断,很多问题都不是一次性问答,而是长期实验搜索。过去企业做这些事,靠工程师经验、项目组会议和大量 Excel 记录。未来完全可以变成“企业研发 Agent 团队”:有的 agent 负责生成工艺假设,有的负责调用仿真软件,有的负责分析失败案例,有的负责维护实验知识库,有的负责把阶段性结果写成技术报告。

换句话说,AutoScientists 不是只属于生物医学实验室,它其实在提示一个更大的方向:科研组织、工程研发组织、工业试验组织,都可能被 Agent 化。

六、但别误解:这还不是“AI 独立发现科学定律”

当然,这篇论文也不能被过度神化。

首先,它仍然主要发生在计算实验领域。无论是 BioML-Bench、GPT 训练优化,还是 ProteinGym,本质上都属于可以自动运行、自动评价、自动比较的计算任务。它离真正的湿实验室、复杂物理实验、临床验证还有距离。其次,它的成本并不低。论文明确指出,AutoScientists 并不是为了比单 Agent 更省 LLM 调用次数。因为多个 agent 要讨论、批评、重组、维护共享状态,所以 token 消耗更高。它追求的是在固定实验算力预算下,提高实验选择效率,而不是降低所有成本。

第三,它仍然依赖强工具链和强后端。论文实现中使用 Claude Code 和 Claude Sonnet 4.6,实验还用到 H100 GPU。对于普通实验室和企业来说,真正落地时需要考虑权限、安全、数据闭环、成本控制和可审计性。

第四,这仍是一篇预印本。它展示了非常漂亮的方向,但结果还需要更多独立复现,尤其是在更大规模 GPU 集群、更长运行周期、更复杂真实科研任务中的稳定性。

所以,AutoScientists 不是终点,而更像一个信号。

它告诉我们:AI 科研系统的竞争,正在从“模型会不会回答”进入“组织能不能持续发现”。

七、从 AI 助手到 AI 课题组

过去我们把 AI 放在科研里,常常把它看成助手:帮我查资料,帮我写代码,帮我总结文献,帮我画图,帮我润色论文。

AutoScientists 代表的是另一种想象:AI 不只是助手,而是一个可组织、可分工、可复盘、可长期运行的虚拟课题组。

这个课题组未必有真正的人类创造力,也未必理解科学意义。但它可以持续提出假设,持续运行实验,持续记录失败,持续围绕证据重组方向。它最强的地方不是灵感,而是耐心;不是权威判断,而是结构化试错;不是替代科学家,而是把科学家的大量低层循环自动化。

这对未来科研人员的影响非常直接。

科研人员的价值会从“亲自做每一个实验细节”,转向“定义好问题、设计好约束、选择好评价指标、判断哪些结果有科学意义”。人类 PI 的角色也可能变化:不再只是安排研究生干活,而是设计一套能让人类、AI、实验设备、数据平台共同协作的研究操作系统。

最终,AI 科学家的突破可能不在于它像不像一个天才,而在于它能不能像一个好课题组那样工作。

AutoScientists 给出的答案是:至少在计算科学实验里,这件事已经开始发生了。

这才是这篇论文真正值得关注的地方。

参考信息

分享到