百万上下文
百万上下文是指大语言模型支持100万token的上下文窗口,允许用户一次性输入大量信息(如整个代码仓库、完整技术文档)进行处理。
技术实现
百万上下文的低成本化依赖于架构层面的创新:
- [[dsa-稀疏注意力]]:DeepSeek自研的稀疏注意力技术
- Token级压缩:在token层面进行压缩,减少计算量和显存占用
行业意义
当百万token上下文成为全线标配,它从"高端选配"变为"基础设施"。这改变了开发者构建应用的方式——不再需要费心做上下文切分、摘要和分段检索。
影响场景
- Agent工作流
- 代码审查
- 文档分析
- 长文本理解与生成