混合专家模型

混合专家模型（Mixture of Experts, MoE）是一种模型架构，在推理时只激活部分参数，以提高效率和吞吐量。Gemma 4的26B MoE模型采用这一架构，激活约4B参数，却保持了极高吞吐量。在Arena榜上位列第6，延迟表现优秀。MoE架构使得消费级硬件上能运行接近云端智能的模型，是Gemma 4实现"每参数智能"突破的关键技术之一。