当AI开始做“科研助理”：Google和FutureHouse把科学助手往前推了一步

2026-05-20

Google, AI科研, FutureHouse, Co-Scientist, Robin, 药物重定位, Nature

摘要：Nature 同天放出两篇论文，Google 的 Co-Scientist 和 FutureHouse 的 Robin 都把目标对准了一个更具体也更现实的方向：不是让 AI 取代科学家，而是让它先承担科研里最耗时、最分散、最容易被信息洪流淹没的那部分工作。

当AI开始做“科研助理”：Google和FutureHouse把科学助手往前推了一步

如果只看标题，这条新闻很容易被写成一句熟悉的话术：AI 又开始“改变科研”了。

但这次稍微不一样。

Nature 在同一天放出两篇论文，Google 的 Co-Scientist 和 FutureHouse 的 Robin 都把目标对准了一个更具体也更现实的方向：不是让 AI 取代科学家，而是让它先承担科研里最耗时、最分散、最容易被信息洪流淹没的那部分工作。Ars Technica 对此抓得很准，两套系统都先从药物重定位这类任务切入，本质上是在测试 AI 能不能把“翻文献、找关联、提假设、排优先级、辅助看实验结果”这一串科研体力活先接过去一部分。

这比“AI 会不会发明新理论”这个问题，实际得多，也重要得多。

一、它们真正解决的，不是智力天花板，而是科研的信息过载

科研系统的一个老问题，是信息太多，而不是聪明人太少。

今天任何一个生物医学方向，论文、预印本、数据库、实验方法和跨学科结果都在爆炸式增长。一个研究者就算能力很强，也很难持续跟上自己领域之外的相关发现。你做眼科，关键机制可能藏在免疫学文献里；你做肿瘤，潜在线索可能埋在神经退行性疾病研究里。很多“其实并不高深、只是没人来得及连起来”的低垂果实，最后就这么漏掉了。

这恰恰是 AI 最适合先切进去的地方。

不是因为它比科学家更懂科学，而是因为它能在后台持续啃文献、做组合式检索、搭建跨领域联系，而且不会累。Ars 那篇报道把这个点说得很直白：这甚至不完全是“AI 和人谁更强”的问题，而更像是“这些搜索工作到底有没有哪个人会真的去做完”。

所以，这两套系统最先展现出的价值，不是“创造力神话”，而是信息吞吐能力。它们先把科研流程里最不 glamorous 但最消耗时间的一段吞掉了。

二、Google Co-Scientist：像一个被严密管控的“科学家在环”系统

Google 的 Co-Scientist 走得相对克制。

按照 Nature 论文摘要，它是一个基于 Gemini 的多智能体系统，核心目标是围绕研究目标和已有证据生成“可实验验证”的新假设。它不是一轮问答就结束，而是让不同 agent 持续生成、批评、筛选和改写假设，并通过 test-time compute 扩大搜索空间。论文里还专门强调了 tournament evolution 机制，也就是让多个候选假设彼此对抗、筛选、再进化。

Ars 对它的解释比较容易理解：先由系统读取科学家给出的研究目标，做文献搜索、形成假设，再通过 tournament、reflection、evolution 这样的环节不断淘汰和改写。整个过程中，评价标准不是“说得好不好听”，而是是否 plausibility、novelty、testability 和 safety 兼顾。

更关键的是，Google 一直在强调一件事：scientist in the loop。

也就是说，它不是想把实验室负责人踢出流程，而是明确让人类专家在每一轮重要判断上介入。以急性髓系白血病的药物重定位为例，最终推进哪些候选药物，不是系统自动拍板，而是由有文献上下文支持的人类评审来定优先级。这个姿态很重要，因为它说明 Google 目前对科研 agent 的定位仍然是“增强判断”，而不是“接管判断”。

换句话说，Co-Scientist 像一个非常勤奋、读文献极快、能提很多候选思路、但必须被首席研究员盯着的高级助理。

三、FutureHouse Robin：比提出假设再多走了一步

Robin 的路线则更激进一点。

FutureHouse 不是只让系统做文献假设生成，而是把它做成了一个多鸟类 agent 编队。Ars 报道里提到，Robin 背后接着 Crow 和 Falcon 这样的文献工具，一个负责给论文做简明摘要，一个负责做更深的内容概览。论文给出的一个数字很抓人：Robin 在 30 分钟里分析了 551 篇论文，而人类估算要花 540 小时。

当然，真正重要的不是这个数字有多震撼，而是它随后做了什么。

在 FutureHouse 的流程里，Robin 不只是提出黄斑变性相关的疾病机制假设，还进一步给出细胞系、培养条件、候选药物，以及每个药物为什么值得测试、有什么潜在限制。到这里为止，它还是一个很强的科研策划助手。

真正让它和 Google 拉开差距的，是 Finch。

Finch 可以自动分析一部分标准生物实验数据，比如流式细胞术和 RNA-seq。也就是说，只要你的实验落在 Finch 能处理的那几类 assay 里，这套系统就不只是“帮你出主意”，而是开始摸到了“帮你读部分结果”的门槛。

这一步的含义不小。因为一旦 AI 不只是给出假设，而是能在某些标准化实验中接手一部分结果分析，它在科研流程里的位置就从“文献助理”往“研究助理”进一步滑过去了。

更值得注意的是，Ars 在这里补了一个非常关键的对照：FutureHouse 发现，专门为科学文献接口设计的工具确实重要。把 Crow 换成 OpenAI 的 o4-mini 之后，幻觉文献引用率从 0% 直接跳到了 45%。而且 FutureHouse 还对比了 OpenAI 的研究型工具，在那些它提出、但 Robin 没有提出的候选药物里，实验结果是全部无效。

这个细节很值钱，因为它把“科研 agent 需要什么”说得更具体了。不是一个通用大模型外加联网搜索就够了，至少在高密度、强证据链的科学任务里，文献接口、证据摘要和结果追溯都必须专门做。

四、两套系统都成功了，但它们成功的方式很值得区分

这次最容易被媒体写糊的地方，是把 Google 和 FutureHouse 混成一个笼统的“AI 科学家”故事。

其实二者差异很大。

Google 的 Co-Scientist 更像是一个严密受控的假设生成和筛选系统。它强在多智能体协作、文献检索、候选假设演化，以及把人类评审稳稳放在中间。

FutureHouse 的 Robin 则更接近一个端到端科研工作流原型。它不只做假设，还延伸到实验设计、候选药物说明，甚至在标准 assay 上进入部分数据解释。

如果非要用一句话概括：

Co-Scientist 更像“会做科学头脑风暴的系统”
Robin 更像“已经开始摸实验台边缘的系统”

这也是为什么这两篇论文值得一起看。它们不是同一条路线上的重复试验，而是在分别试探 AI 科研助手的两个层级边界。

AI 科研助手真正先替代的，是文献搜索和组合式综合这类体力活

五、这并不意味着AI快要取代科学家，但确实在取代一部分科研体力活

这类新闻最容易滑向两个极端。

一个极端是夸大，说“AI 科学家时代已经来了”；另一个极端是轻视，说“不过就是帮忙搜论文而已”。

这两个判断都不够准确。

说它已经能替代科学家，显然太早。无论是 Google 还是 FutureHouse，都还在高度依赖人类专家去设定问题、审核候选、决定实验、解释边界。Nature 的摘要和 Ars 的报道都反复提醒，底层模型仍有 factuality 和 hallucination 问题，这不是一句免责声明，而是科研领域不能绕过去的硬约束。

但反过来说，如果把它们理解成“只是搜索增强”，也低估了它们。

真正的变化在于，AI 正在第一次比较像样地接手科研里那种“读不完、串不起来、没人有空做第二轮”的工作。很多科学突破并不是因为没有理论天才，而是因为没人来得及把 500 篇看似不相关的论文连成一条可测试路径。现在，AI 开始在这件事上显示出工具价值。

所以，更准确的说法应该是：AI 还没有成为科学家，但已经开始成为实验室里一个不睡觉的高吞吐科研助理。

同时也要把边界说清楚。Ars 的判断是对的，这些成果发生在药物研发里相对“没那么难”的一段。它们并没有让 AI 去设计全新的分子，更没有跨过动物实验和临床试验这些失败率最高的阶段。现在成功的，更多是“这条疾病机制可能成立，而那边一个现成药物也许能打到它”这种相对具体、可落在细胞实验里的假设。

这不该被轻视。现有药物重定位本来就很有价值，因为这些分子已经有安全资料、审批历史，很多甚至已经过专利期，成本更低、转化更快。但这和“AI 正在解决药物研发最难的问题”仍然是两回事。

六、真正值得警惕的，不是它会不会替代人，而是科研流程会不会被重新分工

从更长远看，这类系统最大的影响，可能不是“机器发明了什么药”，而是实验室内部的分工结构会被改写。

过去一个博士后、一个研究助理、一个 PI，花大量时间做的是文献搜集、候选筛选、实验路线比对、结果初步整理。将来，如果其中相当一部分标准化工作被 agent 吞掉，人类研究者会被迫把时间更多地移向三件事：

提出真正重要的问题
设计更难被模板化的实验
对 AI 给出的候选路径做最终判断和责任承担

这其实和编程、法务、咨询这些行业现在正在发生的变化很像。AI 最先替代的，从来都不是职业头衔，而是头衔内部那部分最重复、最流程化、最容易被标准化的工作块。

科研也不会例外。

而且，越往真正前沿的科学问题走，这些系统现在的能力边界就越明显。Ars 举了一个很好的例子：很多生物学问题并不是“这个病是不是可以被那个药打中”这么具体，而是像“为什么这个突变会在不同组织里引出一整串缺陷”或者“某个基因表达边界为什么改变了细胞对信号分子的响应”。这类开放式、机制级、非模板化的问题，今天的 Co-Scientist 和 Robin 能不能处理，仍然很不清楚。

所以更稳妥的判断不是“AI 已经会做科学”，而是“AI 已经开始在某些高结构化、证据密集型科研任务里，承担一部分此前只有研究人员会做的工作”。

结语

所以，这次 Google Co-Scientist 和 FutureHouse Robin 的意义，不在于它们已经证明“AI 可以独立做科学”，而在于它们第一次比较清楚地展示了：AI 可以从哪里切进科学发现流程，而且切进去之后确实能产出有实验价值的东西。

这条线一旦走通，未来实验室最先变化的，未必是诺贝尔奖级别的理论创造，而是日常科研的工作流本身。谁来读文献，谁来排候选，谁来盯跨学科联系，谁来做第一轮标准实验分析，这些原来默认由人承担的工作，都会被重新分配。

AI 科学助手时代，也许还没有到“替代科学家”的那一步，但已经明显走过了“只是聊天机器人”的阶段。

而这，可能才是更值得认真对待的变化。

参考来源

Nature, Accelerating scientific discovery with Co-Scientist, 2026-05-19.
Nature, DOI: 10.1038/s41586-026-10652-y, 2026-05-19.
Ars Technica, Two AI-based science assistants succeed with drug-retargeting tasks, 2026-05-20.
C&EN, AI companies introduce new agent-based tools for scientific discovery, 2026-05-19.

AI技术