Gemini Embedding 2
Gemini Embedding 2是谷歌于2026年3月发布的原生多模态向量化模型。它基于Gemini大模型的统一架构,将文字、图像、视频、音频和PDF统一映射进同一个向量空间,标志着原生多模态向量化时代的到来。
核心技术
- 原生多模态架构:模型在"胚胎阶段"就同时接受各种模态的训练,而非使用独立的编码器。
- Matryoshka Representation Learning (MRL):允许模型在一个大向量中嵌套小向量,实现弹性部署。初步筛选时可只提取前768维,重排阶段再调用全量3072维。
- 视频理解:支持长达120秒的视频向量化,能理解时间一致性,区分"顺时针旋转"与"逆时针旋转"的语义差异。
- PDF结构化理解:直接向量化PDF的视觉布局,理解公式位置、表格行列关系和插图标注。
应用场景
- 智能仿真(CFD)的"以图搜图":将仿真结果向量化,实现历史案例的秒级检索。
- 多模态RAG:构建全模态知识库,支持音频、视频、文本的联合检索。
- 跨模态数据治理:量化不同模态数据之间的信息冗余度,实现高效的数据脱敏、压缩与定价。
局限性与挑战
- 私有化部署难题:作为闭源API,涉及核心机密的工业数据存在安全合规博弈。
- 向量漂移:在极高精度物理场景下,多模态向量可能存在"语义模糊"。
- 计算成本:多模态输入的预处理对边缘侧算力提出挑战。
相关实体
- [[google-deepmind]] — 谷歌旗下AI研究实验室
- [[google-ai]] — 谷歌旗下AI研究部门