Token级压缩 Token级压缩 Token级压缩是指在token层面进行压缩处理,以减少计算量和显存占用的技术。 技术原理 通过对token序列进行压缩,降低注意力计算和显存需求,使得长上下文处理更加高效。 应用 Token级压缩是DeepSeek V4实现百万token上下文标配化的底层技术路径之一,与[[dsa-稀疏注意力]]协同工作。