原生检索嵌入
原生检索嵌入是一种颠覆性的RAG(检索增强生成)范式,由arXiv论文《One Model Is Enough》(arXiv:2603.08429)提出。其核心思想是直接利用LLM智能体的隐藏层状态(Hidden States)作为检索嵌入,无需独立的Embedding模型。
技术原理
- 隐藏层状态复用:大模型在推理过程中同步生成高维向量,这些向量可直接用于检索。
- 语义级同构:检索内容与生成上下文实现了"语义级的同构",使检索结果更贴合生成需求。
优势
- 架构简化:不再需要独立的Embedding模型,简化了RAG系统的整体架构。
- 上下文对齐:检索内容与生成上下文在语义上高度一致。
- 效率提升:减少了模型调用次数和系统复杂度。
潜在挑战
- 在实际大规模RAG系统中的鲁棒性和效率仍需验证。
- 是否真的能完全替代独立的Embedding模型尚待研究。
相关概念
- [[推理架构专用化]]:推理专用芯片可能进一步优化原生检索嵌入的性能。