Voxtral TTS

Voxtral TTS

Voxtral TTS是Mistral发布的文本转语音模型（41亿参数），采用"语音即指令"（Voice-as-an-instruction）方式，代表参考音频推断式控制的技术路线。

主要特性

参考音频推断式控制：不依赖标签，直接从用户提供的语音参考推断语调、节奏和情感表达
架构：基于Ministral 3B的Transformer架构自回归流匹配模型
多语言支持：支持9种语言
开源可本地托管：权重开放，Hugging Face上默认BF16权重约8GB，量化版本可压至约3GB
核心定位：小体积+前沿级质量

技术路线对比

Voxtral TTS的参考音频推断式控制与OpenAI的自然语言指令式、Google的结构化标签式形成三种不同的技术路径。参考音频推断式强调便捷性和自然度，用户无需学习任何标签语法，直接提供语音样本即可。

相关实体

[[audio-tags]] — 结构化标签方案的代表
[[ssml]] — 最成熟的结构化标签标准
[[openai-tts]] — 自然语言指令式控制的代表
[[gemini-3-1-flash-tts]] — Google的TTS模型，采用Audio Tags方案