混合专家(MoE)架构
一种通过激活部分参数来平衡模型性能与计算成本的神经网络架构。MoE架构在保持大模型能力的同时,大幅降低了推理成本。
工作原理
MoE架构将模型分解为多个"专家"子网络,每次推理时仅激活与当前任务相关的少数专家,而非全部参数。这使得模型可以在拥有海量参数的同时,保持较低的推理成本。
代表模型
[[MiniMax M2.5]]采用了激进的MoE架构,拥有2300亿参数但每次查询仅激活100亿,执行复杂任务时Token消耗成本仅为Claude Opus 4.6的1/30。
行业意义
MoE架构是推动[[推理成本厘时代]]的关键技术之一,使得万亿级Token的应用场景成为可能,但也带来了专家负载均衡、通信开销等新的工程挑战。