原生检索嵌入

原生检索嵌入

原生检索嵌入是一种颠覆性的RAG（检索增强生成）范式，由arXiv论文《One Model Is Enough》（arXiv:2603.08429）提出。其核心思想是直接利用LLM智能体的隐藏层状态（Hidden States）作为检索嵌入，无需独立的Embedding模型。

技术原理

隐藏层状态复用：大模型在推理过程中同步生成高维向量，这些向量可直接用于检索。
语义级同构：检索内容与生成上下文实现了"语义级的同构"，使检索结果更贴合生成需求。

优势

架构简化：不再需要独立的Embedding模型，简化了RAG系统的整体架构。
上下文对齐：检索内容与生成上下文在语义上高度一致。
效率提升：减少了模型调用次数和系统复杂度。

潜在挑战

在实际大规模RAG系统中的鲁棒性和效率仍需验证。
是否真的能完全替代独立的Embedding模型尚待研究。

相关概念

[[推理架构专用化]]：推理专用芯片可能进一步优化原生检索嵌入的性能。