混合专家（MoE）架构

一种通过激活部分参数来平衡模型性能与计算成本的神经网络架构。MoE架构在保持大模型能力的同时，大幅降低了推理成本。

工作原理

MoE架构将模型分解为多个"专家"子网络，每次推理时仅激活与当前任务相关的少数专家，而非全部参数。这使得模型可以在拥有海量参数的同时，保持较低的推理成本。

[[MiniMax M2.5]]采用了激进的MoE架构，拥有2300亿参数但每次查询仅激活100亿，执行复杂任务时Token消耗成本仅为Claude Opus 4.6的1/30。

MoE架构是推动[[推理成本厘时代]]的关键技术之一，使得万亿级Token的应用场景成为可能，但也带来了专家负载均衡、通信开销等新的工程挑战。