Token级压缩 article https://gyznsw.cn/knowledge/wiki/concepts/token%E7%BA%A7%E5%8E%8B%E7%BC%A9.html Token级压缩 Token级压缩是指在token层面进行压缩处理,以减少计算量和显存占用的技术。 技术原理 通过对token序列进行压缩,降低注意力计算和显存需求,使得长上下文处理更加高效。 应用 Token级压缩是DeepSeek V4实现百万token上下文标配化的底层技术路径之一,与[[dsa-稀疏注意力]]协同工作。