告别古法科研:Google DeepMind 的 Science Skills,正在把科研工作台变成 Agent 工作流

摘要:Science Skills 的信号很明确:科研 AI 的下一阶段,不是一个更会聊天的模型,而是一个能连接数据库、工具、文献、代码和实验假设的 Agent 工作台。

科研人员最熟悉的一种“古法科研”,不是做实验,而是在做实验之前,被大量低价值流程拖住:查数据库、翻文献、复制 accession 编号、跑脚本、改格式、换工具、截图保存、再回到论文和实验设计里反复核对。真正的问题不是科研人员不努力,而是现代科研的知识、数据库和工具已经碎片化到一个人很难高效调度。

Google DeepMind 最新开源的 science-skills,瞄准的正是这个痛点。它不是又一个“陪你聊天的科研助手”,而是一组面向科学研究 Agent 的技能包。官方介绍中,它被定义为一组用于科学研究任务的 agent skills,覆盖基因组学、结构生物学、化学信息学、文献检索等方向;每个 skill 都包含结构化指令、脚本和资源,用来扩展 AI Agent 在特定科研任务上的能力。

简单说,以前你是自己在浏览器、PubMed、UniProt、AlphaFold Database、PubChem、ClinVar、Ensembl、Jupyter、命令行之间来回切换;现在的思路是:让 Agent 在一个工作台里理解你的研究目标,调用合适的数据库、脚本和工具,生成可检查的中间过程和结果。Google 在 Gemini for Science 的介绍中也明确说,Science Skills 是作为 Google Antigravity 中的专业化技能包推出的,整合了 30 多个生命科学数据库和工具,包括 UniProt、AlphaFold Database、AlphaGenome API 和 InterPro 等。

这件事的关键,不在于“AI 会不会替代科学家”,而在于科研工作流正在从“人肉导航”进入“Agent 调度”。

Google DeepMind Science Skills 正在把科研工作台变成 Agent 工作流

从手工小作坊到可复用技能

过去的古法科研,很像一个手工小作坊。研究人员先去文献库搜论文,再去数据库查基因、蛋白、结构、突变、通路、药物、临床试验;中间任何一步都可能被格式、接口、命名体系、版本号、API 限制卡住。最后论文里看起来是一段简洁的结论,背后可能是几十次搜索、十几个网页、几份 CSV 文件和一堆临时脚本。

Science Skills 的价值,是把这些“研究动作”封装成可复用的技能。技术报告里说,它最初重点放在生物学和生命科学方向,覆盖基因组、转录组、调控生物学,蛋白质组和结构生物学,化学信息学和临床转化,以及科学文献、通路和本体等几类任务。报告列出的技能包括 AlphaFold Database、AlphaGenome、arXiv、bioRxiv、Europe PMC、PubMed、ChEMBL、ClinicalTrials、ClinVar、dbSNP、ENCODE、Ensembl、gnomAD、GTEx、Human Protein Atlas、OpenFDA、OpenTargets、PDB、PubChem、Reactome、STRING、UniProt 等。

这意味着什么?对于生命科学研究者来说,很多原来“懂的人觉得简单、不懂的人非常耗时”的流程,开始可以被标准化。例如,给定一个突变,Agent 可以先判断它对应哪个基因和转录本,再查 ClinVar 或 dbSNP,再调用 Ensembl/VEP 类工具看功能影响,再关联 UniProt、AlphaFold Database、InterPro、PDB 等结构与功能信息,最后生成一个可供研究者审查的分析链条。它不是凭空编结论,而是被要求尽量把推理落在数据库、API、脚本和引用上。

可验证的科学产物

Google 对这个项目的表述里有一个很重要的词:Verifiable Scientific Artifacts,也就是可验证的科学产物。Antigravity 的 science use case 页面强调,要让结果建立在证据之上,并让每一步清晰可读。 这对科研 AI 非常关键。科研人员最怕的不是 AI 不会说,而是 AI 太会说;它可以把一个未经验证的判断包装得像结论。真正能进实验室、进论文、进药物研发流程的 AI,必须能留下中间步骤、来源、脚本和证据链。

从评测结果看,Science Skills 的意义也不只是“多接了几个数据库”。Google DeepMind 的技术报告显示,在 67 个内部能力测试上,Antigravity 使用 Gemini 3 Flash 时,加入 Science Skills 后成功率从 49% 提升到 93%;使用 Gemini 3.1 Pro 时,从 67% 提升到 91%。同时,平均 token 使用也下降:Gemini 3 Flash 任务平均 token 从 13,952 降到 6,827,效率提升约 2.04 倍;Gemini 3.1 Pro 从 5,828 降到 3,588,效率提升约 1.62 倍。

这个结果背后的逻辑很值得科研人员重视:不是模型“更聪明”了,而是模型不再靠泛泛的网页搜索和大段上下文硬扛任务。技术报告提到,没有 Science Skills 时,Agent 往往需要更多步骤,会犯更多中间错误,并经常回到通用网络搜索;有了 Science Skills 后,步骤减少,错误减少,推理更多落在参考数据上。 这其实就是科研智能体的核心规律:真正提升可靠性的,不只是大模型参数,而是工具、数据、流程和验证机制。

对科研人员的三个变化

对科研人员来说,这会带来三个变化。

第一,文献综述会从“堆材料”变成“建问题图谱”。过去读文献,很容易陷入下载、标注、摘抄、分类的体力劳动。未来更有价值的工作,是让 Agent 帮你按问题、方法、数据集、实验对象、结论强弱和争议点来组织文献。Google 在 Gemini for Science 中也同时推出 Literature Insights,强调可以搜索科学文献,并将结果组织成带自定义属性的表格,支持并排分析。

第二,生信和结构分析会从“会工具的人领先”变成“会提问和会验证的人领先”。过去很多研究瓶颈不是科学问题本身,而是谁更熟悉数据库、接口和脚本。Science Skills 把一批常用工具和数据库封装进 Agent 工作流后,门槛会下降。但这并不意味着初学者可以跳过专业判断。恰恰相反,工具越容易调用,研究者越需要判断:输入是否合理,数据库版本是否合适,结果是否可重复,结论是否过度外推。

第三,科研流程会从一次性操作变成可复用资产。science-skills 仓库里包含 workflow_skill_creator,技术报告也提到,用户可以“手把手”带 Agent 走一遍自己的科研流程,再把这个过程转成可复用 skill。 这对实验室很重要。一个课题组真正宝贵的东西,往往不是某一次查询,而是长期积累下来的 SOP、分析模板、判断规则和数据处理习惯。未来这些经验可以部分沉淀为 Agent Skill,而不是只存在于师兄师姐的脑子里。

不是拿来就信,而是拿来改造流程

当然,不能把 Science Skills 神化。它目前明显更偏生命科学,尤其是基因组学、蛋白、结构、生物数据库、药物和临床转化相关方向。Google DeepMind 在技术报告中也承认,科学工作流太广,不可能用一个技能包覆盖所有方向;当前 bundle 更像是一个起点,未来还需要科研人员为自己的领域创建自定义技能。报告还指出,可重复执行环境本身仍是挑战,Agent Skills 标准并不天然包含完整可复现环境,因此项目采用 uv 包管理器来提高稳定性。

所以,科研人员今天看这个项目,最正确的姿势不是“拿来就信”,而是“拿来改造自己的科研流程”。一个课题组可以先选三类高频任务试用:文献检索与证据表格、数据库交叉查询、标准化分析报告。每一类任务都要求 Agent 输出来源、脚本、参数和中间文件。最终目标不是让 AI 替你写结论,而是让 AI 替你清理路径,把你从重复劳动中解放出来。

“告别古法科研”,不是告别严谨,不是告别实验,也不是告别人的判断。恰恰相反,它是把科研人员从低价值的数据库搬运、格式转换、网页跳转和脚本拼接中解放出来,把时间还给真正重要的事情:提出问题、设计实验、判断证据、修正假设。

Science Skills 给出的信号很明确:科研 AI 的下一阶段,不是一个更会聊天的模型,而是一个能连接数据库、工具、文献、代码和实验假设的 Agent 工作台。谁先把自己的科研流程技能化、标准化、可验证化,谁就会先告别古法科研。

分享到