Context Window(上下文窗口)
定义
模型单次处理能力的上限,代表模型一次最多能处理多少 Token。Context(上下文)是模型当前任务的"短时记忆缓冲区",包含用户问题、历史对话、系统设定、工具返回数据等信息。
核心原理
- 模型本身没有持久记忆,每次请求都是独立计算
- 平台将历史对话打包进 Context,使模型"看起来"记得之前的内容
- Context Window 是这个缓冲区的容量上限
工程权衡
| 因素 | 影响 |
|---|---|
| 窗口越大 | 可处理更多信息,但成本越高、噪声越多、注意力分散风险越大 |
| 窗口越小 | 成本低、响应快,但无法处理长文档或复杂对话 |
与 RAG 的关系
RAG(检索增强生成)是解决 Context Window 限制的实用方案:
- 不将所有资料塞入窗口
- 先检索最相关片段,再送入模型
- 打破窗口限制,降低成本,提高准确率
发展趋势
- 早期模型:几千 Token
- 当前先进模型:几十万到上百万 Token
- 趋势:窗口持续扩大,但工程权衡依然存在