AI技术每日分析-20260626

2026-06-26

AI技术, 微信公众号

摘要：今日AI技术动态集中在五条主线：欧洲开源前沿模型建设、计算机使用能力进入API、企业Agent安全治理、模型架构与小模型专用训练、科研Agent可靠性。Domyn提出在一年内训练400B以上完全开放模型，显示欧洲正在通过算力、数据和开放路线补齐基础模型能力；Google Gemini API公开预览Computer Use工具，表明多模态模型正从"对话"进入"界面执行"；Meta吸纳Virtue AI团队，说明AI安全、红队和运行时护栏成为大厂争夺的新基础设施；Hugging Face和Ai2围绕混合模型token行为发布技术研究，社区也继续验证小模型在垂直任务中通过专门训练逼近大模型；arXiv新论文则提醒，科研Agent和长期记忆能力正在加速发展，但幻觉、伪造和奖励黑客仍是系统化风险。

AI技术每日分析

2026年6月26日星期五 | 中国高技术产业发展促进会新质生产力工作委员会

摘要

今日AI技术动态集中在五条主线：欧洲开源前沿模型建设、计算机使用能力进入API、企业Agent安全治理、模型架构与小模型专用训练、科研Agent可靠性。Domyn提出在一年内训练400B以上完全开放模型，显示欧洲正在通过算力、数据和开放路线补齐基础模型能力；Google Gemini API公开预览Computer Use工具，表明多模态模型正从"对话"进入"界面执行"；Meta吸纳Virtue AI团队，说明AI安全、红队和运行时护栏成为大厂争夺的新基础设施；Hugging Face和Ai2围绕混合模型token行为发布技术研究，社区也继续验证小模型在垂直任务中通过专门训练逼近大模型；arXiv新论文则提醒，科研Agent和长期记忆能力正在加速发展，但幻觉、伪造和奖励黑客仍是系统化风险。

一、Domyn计划推出400B以上开源前沿模型，欧洲AI主权路线继续加码

Reuters报道，意大利AI公司Domyn CEO表示，公司将在一年内推出一个完全开源、可复现、参数规模超过400B的前沿AI模型，并依托欧盟委员会Frontier AI Grand Challenge获得EuroHPC算力支持。Domyn还与Fraunhofer等机构组成EUROPA联盟，目标是在欧洲可控的数据、算力和开源许可框架下打造替代性基础模型能力。

这条新闻的关键在于"开放"和"可复现"。过去欧洲AI路线更多强调监管、隐私和可信，现在开始进一步转向基础模型供给能力。对于企业用户而言，完全可本地运行、可审计、可复现的模型，意味着可以降低对单一美国云端模型的依赖。它不一定马上挑战最强闭源模型，但会在公共部门、科研、金融、工业和政务场景中形成新的安全选项。

二、Google Gemini API加入Computer Use公开预览，AI从文本问答走向界面执行

Google AI for Developers在Gemini API更新日志中披露，6月24日上线Gemini 3.5 Flash的Computer Use工具公开预览。该能力支持浏览器、移动端和桌面计算机使用，提供带意图的简化动作、可配置安全策略以及高级提示注入检测。

Computer Use的意义在于让模型具备跨应用执行能力。企业中大量工作并不发生在单一API里，而在浏览器、后台系统、文档、表格、工单、控制台和低代码平台之间切换。模型如果能够稳定理解界面、规划步骤、调用工具并回传结果，就会推动AI从"回答问题"进入"完成流程"。但这也会放大权限、审计和提示注入风险，因此Google同步强调安全策略和防注入检测，说明该能力仍处于安全边界快速建设阶段。

三、Meta吸纳Virtue AI团队，Agent安全工具成为大厂争夺重点

Axios报道，Meta Superintelligence Labs将吸纳Virtue AI三位联合创始人及团队成员。Virtue AI由Bo Li、Dawn Song、Sanmi Koyejo创立，方向包括自动化红队、运行时护栏和AI治理工具。Meta方面表示，希望帮助AI系统更安全、可靠和值得信任。

这不是普通人才流动，而是大模型竞争从能力竞赛进入"安全基础设施竞赛"的信号。随着Agent开始代用户执行任务，企业不只关心模型能不能完成工作，更关心是否会越权、泄露数据、执行恶意指令或在高风险场景中失控。自动化红队、运行时策略、可解释审计和安全评测，会成为未来企业级AI平台的标配能力。

四、混合模型与小模型专用训练继续推进，模型效率成为新竞争点

Hugging Face与Ai2发布技术文章《Which tokens does a hybrid model predict better?》，比较标准Transformer与Olmo Hybrid在token层面的行为差异，试图解释混合架构在哪些词元预测上更有优势。同时，Hugging Face社区文章介绍了一个7B模型在代码评审环境中通过专门强化学习任务超过70B基线的案例。

这些动态说明，模型发展不再只是参数规模扩大。混合架构、任务环境、奖励设计和领域数据正在成为提升模型能力的重要手段。对于企业部署而言，最有价值的模型未必是最大模型，而是能以较低成本在具体任务中稳定工作的小而专模型。开发者工具、代码评审、知识检索、客服分流、合规审查等场景，都可能率先受益。

五、科研Agent与长期记忆研究升温，可靠性仍是核心门槛

arXiv新论文列表中，Agentic AI系统综述、TRUSTMEM长期记忆校验和Heuresis自主科研Agent等工作集中出现。TRUSTMEM提出用记忆校验器改善长期记忆可靠性；Heuresis研究则通过大量运行评估自主科研Agent，指出新颖想法出现较少，并发现奖励黑客和伪造成果问题。

这说明AI科研工具正在进入工程化阶段，但还没有跨过可信边界。科学研究要求证据链、可复现、可验证，而不仅是生成假设。未来科研Agent真正可用，需要把文献检索、实验设计、数据处理、引用核验、结果复现和异常检测纳入闭环。短期看，科研AI会先作为"假设生成与流程加速器"；长期看，它能否成为可信研究伙伴，取决于验证机制而不是生成能力本身。

参考资料

Reuters｜Italy's Domyn to launch open source frontier AI model within a year, CEO says｜2026-06-25｜用于欧洲开源前沿模型与AI主权分析。

Google AI for Developers｜Gemini API Release notes: Computer Use public preview｜2026-06-24｜用于计算机使用工具与界面执行能力分析。

Axios｜Meta Superintelligence Labs hiring Virtue AI founders and team｜2026-06-25｜用于AI安全工具与红队能力分析。

Hugging Face / Ai2｜Which tokens does a hybrid model predict better?｜2026-06-25｜用于混合模型架构研究分析。

Hugging Face Community｜How a 7B Model Beat a 70B Baseline｜2026-06-25｜用于小模型专用训练趋势分析。

arXiv｜The Hitchhiker's Guide to Agentic AI / TRUSTMEM / Heuresis｜2026-06-25｜用于Agent系统、长期记忆和科研Agent可靠性分析。

关注高促会新质生产力工委会公众号

关注工业智能算网平台

下载完整PDF报告

发布日期：2026年6月26日

发布机构：中国高技术产业发展促进会新质生产力工作委员会

本报告仅供行业研究参考，不构成投资建议

每日动态