告别古法科研：Google DeepMind 的 Science Skills，正在把科研工作台变成 Agent 工作流

2026-05-31

AI Agent, Google DeepMind, Science Skills, 科研工作流, 生命科学

摘要：Science Skills 的信号很明确：科研 AI 的下一阶段，不是一个更会聊天的模型，而是一个能连接数据库、工具、文献、代码和实验假设的 Agent 工作台。

科研人员最熟悉的一种“古法科研”，不是做实验，而是在做实验之前，被大量低价值流程拖住：查数据库、翻文献、复制 accession 编号、跑脚本、改格式、换工具、截图保存、再回到论文和实验设计里反复核对。真正的问题不是科研人员不努力，而是现代科研的知识、数据库和工具已经碎片化到一个人很难高效调度。

Google DeepMind 最新开源的 science-skills，瞄准的正是这个痛点。它不是又一个“陪你聊天的科研助手”，而是一组面向科学研究 Agent 的技能包。官方介绍中，它被定义为一组用于科学研究任务的 agent skills，覆盖基因组学、结构生物学、化学信息学、文献检索等方向；每个 skill 都包含结构化指令、脚本和资源，用来扩展 AI Agent 在特定科研任务上的能力。

简单说，以前你是自己在浏览器、PubMed、UniProt、AlphaFold Database、PubChem、ClinVar、Ensembl、Jupyter、命令行之间来回切换；现在的思路是：让 Agent 在一个工作台里理解你的研究目标，调用合适的数据库、脚本和工具，生成可检查的中间过程和结果。Google 在 Gemini for Science 的介绍中也明确说，Science Skills 是作为 Google Antigravity 中的专业化技能包推出的，整合了 30 多个生命科学数据库和工具，包括 UniProt、AlphaFold Database、AlphaGenome API 和 InterPro 等。

这件事的关键，不在于“AI 会不会替代科学家”，而在于科研工作流正在从“人肉导航”进入“Agent 调度”。

Google DeepMind Science Skills 正在把科研工作台变成 Agent 工作流

从手工小作坊到可复用技能

过去的古法科研，很像一个手工小作坊。研究人员先去文献库搜论文，再去数据库查基因、蛋白、结构、突变、通路、药物、临床试验；中间任何一步都可能被格式、接口、命名体系、版本号、API 限制卡住。最后论文里看起来是一段简洁的结论，背后可能是几十次搜索、十几个网页、几份 CSV 文件和一堆临时脚本。

Science Skills 的价值，是把这些“研究动作”封装成可复用的技能。技术报告里说，它最初重点放在生物学和生命科学方向，覆盖基因组、转录组、调控生物学，蛋白质组和结构生物学，化学信息学和临床转化，以及科学文献、通路和本体等几类任务。报告列出的技能包括 AlphaFold Database、AlphaGenome、arXiv、bioRxiv、Europe PMC、PubMed、ChEMBL、ClinicalTrials、ClinVar、dbSNP、ENCODE、Ensembl、gnomAD、GTEx、Human Protein Atlas、OpenFDA、OpenTargets、PDB、PubChem、Reactome、STRING、UniProt 等。

这意味着什么？对于生命科学研究者来说，很多原来“懂的人觉得简单、不懂的人非常耗时”的流程，开始可以被标准化。例如，给定一个突变，Agent 可以先判断它对应哪个基因和转录本，再查 ClinVar 或 dbSNP，再调用 Ensembl/VEP 类工具看功能影响，再关联 UniProt、AlphaFold Database、InterPro、PDB 等结构与功能信息，最后生成一个可供研究者审查的分析链条。它不是凭空编结论，而是被要求尽量把推理落在数据库、API、脚本和引用上。

可验证的科学产物

Google 对这个项目的表述里有一个很重要的词：Verifiable Scientific Artifacts，也就是可验证的科学产物。Antigravity 的 science use case 页面强调，要让结果建立在证据之上，并让每一步清晰可读。这对科研 AI 非常关键。科研人员最怕的不是 AI 不会说，而是 AI 太会说；它可以把一个未经验证的判断包装得像结论。真正能进实验室、进论文、进药物研发流程的 AI，必须能留下中间步骤、来源、脚本和证据链。

从评测结果看，Science Skills 的意义也不只是“多接了几个数据库”。Google DeepMind 的技术报告显示，在 67 个内部能力测试上，Antigravity 使用 Gemini 3 Flash 时，加入 Science Skills 后成功率从 49% 提升到 93%；使用 Gemini 3.1 Pro 时，从 67% 提升到 91%。同时，平均 token 使用也下降：Gemini 3 Flash 任务平均 token 从 13,952 降到 6,827，效率提升约 2.04 倍；Gemini 3.1 Pro 从 5,828 降到 3,588，效率提升约 1.62 倍。

这个结果背后的逻辑很值得科研人员重视：不是模型“更聪明”了，而是模型不再靠泛泛的网页搜索和大段上下文硬扛任务。技术报告提到，没有 Science Skills 时，Agent 往往需要更多步骤，会犯更多中间错误，并经常回到通用网络搜索；有了 Science Skills 后，步骤减少，错误减少，推理更多落在参考数据上。这其实就是科研智能体的核心规律：真正提升可靠性的，不只是大模型参数，而是工具、数据、流程和验证机制。

对科研人员的三个变化

对科研人员来说，这会带来三个变化。

第一，文献综述会从“堆材料”变成“建问题图谱”。过去读文献，很容易陷入下载、标注、摘抄、分类的体力劳动。未来更有价值的工作，是让 Agent 帮你按问题、方法、数据集、实验对象、结论强弱和争议点来组织文献。Google 在 Gemini for Science 中也同时推出 Literature Insights，强调可以搜索科学文献，并将结果组织成带自定义属性的表格，支持并排分析。

第二，生信和结构分析会从“会工具的人领先”变成“会提问和会验证的人领先”。过去很多研究瓶颈不是科学问题本身，而是谁更熟悉数据库、接口和脚本。Science Skills 把一批常用工具和数据库封装进 Agent 工作流后，门槛会下降。但这并不意味着初学者可以跳过专业判断。恰恰相反，工具越容易调用，研究者越需要判断：输入是否合理，数据库版本是否合适，结果是否可重复，结论是否过度外推。

第三，科研流程会从一次性操作变成可复用资产。science-skills 仓库里包含 workflow_skill_creator，技术报告也提到，用户可以“手把手”带 Agent 走一遍自己的科研流程，再把这个过程转成可复用 skill。这对实验室很重要。一个课题组真正宝贵的东西，往往不是某一次查询，而是长期积累下来的 SOP、分析模板、判断规则和数据处理习惯。未来这些经验可以部分沉淀为 Agent Skill，而不是只存在于师兄师姐的脑子里。

不是拿来就信，而是拿来改造流程

当然，不能把 Science Skills 神化。它目前明显更偏生命科学，尤其是基因组学、蛋白、结构、生物数据库、药物和临床转化相关方向。Google DeepMind 在技术报告中也承认，科学工作流太广，不可能用一个技能包覆盖所有方向；当前 bundle 更像是一个起点，未来还需要科研人员为自己的领域创建自定义技能。报告还指出，可重复执行环境本身仍是挑战，Agent Skills 标准并不天然包含完整可复现环境，因此项目采用 uv 包管理器来提高稳定性。

所以，科研人员今天看这个项目，最正确的姿势不是“拿来就信”，而是“拿来改造自己的科研流程”。一个课题组可以先选三类高频任务试用：文献检索与证据表格、数据库交叉查询、标准化分析报告。每一类任务都要求 Agent 输出来源、脚本、参数和中间文件。最终目标不是让 AI 替你写结论，而是让 AI 替你清理路径，把你从重复劳动中解放出来。

“告别古法科研”，不是告别严谨，不是告别实验，也不是告别人的判断。恰恰相反，它是把科研人员从低价值的数据库搬运、格式转换、网页跳转和脚本拼接中解放出来，把时间还给真正重要的事情：提出问题、设计实验、判断证据、修正假设。

Science Skills 给出的信号很明确：科研 AI 的下一阶段，不是一个更会聊天的模型，而是一个能连接数据库、工具、文献、代码和实验假设的 Agent 工作台。谁先把自己的科研流程技能化、标准化、可验证化，谁就会先告别古法科研。

AI技术

从手工小作坊到可复用技能

可验证的科学产物

对科研人员的三个变化

不是拿来就信，而是拿来改造流程