Context Window（上下文窗口）

Context Window（上下文窗口）

定义

模型单次处理能力的上限，代表模型一次最多能处理多少 Token。Context（上下文）是模型当前任务的"短时记忆缓冲区"，包含用户问题、历史对话、系统设定、工具返回数据等信息。

核心原理

模型本身没有持久记忆，每次请求都是独立计算
平台将历史对话打包进 Context，使模型"看起来"记得之前的内容
Context Window 是这个缓冲区的容量上限

工程权衡

因素	影响
窗口越大	可处理更多信息，但成本越高、噪声越多、注意力分散风险越大
窗口越小	成本低、响应快，但无法处理长文档或复杂对话

与 RAG 的关系

RAG（检索增强生成）是解决 Context Window 限制的实用方案：

不将所有资料塞入窗口
先检索最相关片段，再送入模型
打破窗口限制，降低成本，提高准确率

发展趋势

早期模型：几千 Token
当前先进模型：几十万到上百万 Token
趋势：窗口持续扩大，但工程权衡依然存在