RAG(检索增强生成)
定义
Retrieval-Augmented Generation(检索增强生成)是一种解决 LLM 知识注入和成本问题的实用工程方案。其核心逻辑是:不让模型每次都读整本书,而是先帮它"翻目录、找重点",然后只把最相关的内容喂进去。
工作原理
- 文档切片:将大文档(如上千页的工业软件说明书)切成小片段
- 向量化存储:将切片做向量化处理,存入向量数据库
- 检索:用户提问时,从数据库中检索最相关的几个片段
- 生成:将检索到的片段连同问题一起送入模型,生成回答
三大优势
- 打破 Context Window 限制:无需将所有资料塞入窗口
- 降低 Token 成本:只处理最相关的内容,大幅减少 Token 消耗
- 提高回答准确率:减少海量文本中的注意力分散,聚焦关键信息
典型应用场景
- 企业知识库问答系统
- 工业设备故障排查
- 法律文档检索与咨询
- 产品说明书智能问答
与 Context Window 的关系
RAG 不是替代 Context Window,而是对其限制的工程化补充。即使 Context Window 不断扩大,RAG 在成本控制和注意力聚焦方面的价值依然存在。