RAG（检索增强生成）

RAG（检索增强生成）

定义

Retrieval-Augmented Generation（检索增强生成）是一种解决 LLM 知识注入和成本问题的实用工程方案。其核心逻辑是：不让模型每次都读整本书，而是先帮它"翻目录、找重点"，然后只把最相关的内容喂进去。

工作原理

文档切片：将大文档（如上千页的工业软件说明书）切成小片段
向量化存储：将切片做向量化处理，存入向量数据库
检索：用户提问时，从数据库中检索最相关的几个片段
生成：将检索到的片段连同问题一起送入模型，生成回答

三大优势

打破 Context Window 限制：无需将所有资料塞入窗口
降低 Token 成本：只处理最相关的内容，大幅减少 Token 消耗
提高回答准确率：减少海量文本中的注意力分散，聚焦关键信息

典型应用场景

企业知识库问答系统
工业设备故障排查
法律文档检索与咨询
产品说明书智能问答

与 Context Window 的关系

RAG 不是替代 Context Window，而是对其限制的工程化补充。即使 Context Window 不断扩大，RAG 在成本控制和注意力聚焦方面的价值依然存在。