混合专家模型 混合专家模型 混合专家模型(Mixture of Experts, MoE)是一种模型架构,在推理时只激活部分参数,以提高效率和吞吐量。Gemma 4的26B MoE模型采用这一架构,激活约4B参数,却保持了极高吞吐量。在Arena榜上位列第6,延迟表现优秀。MoE架构使得消费级硬件上能运行接近云端智能的模型,是Gemma 4实现"每参数智能"突破的关键技术之一。