Token级压缩

Token级压缩

Token级压缩

Token级压缩是指在token层面进行压缩处理,以减少计算量和显存占用的技术。

技术原理

通过对token序列进行压缩,降低注意力计算和显存需求,使得长上下文处理更加高效。

应用

Token级压缩是DeepSeek V4实现百万token上下文标配化的底层技术路径之一,与[[dsa-稀疏注意力]]协同工作。

分享到