Gemini 3.1 Flash TTS
Gemini 3.1 Flash TTS 是 Google DeepMind 与 Google AI 于 2026 年 4 月在 Gemini API 预览版中推出的文本转语音模型。该模型的核心创新不在于单纯的拟真度提升,而在于其通过 Audio Tags(音频标签) 系统实现了语音的精确可控性和可编排性,标志着语音模型进入了“可编排工作流”阶段。
核心特性
- Audio Tags 系统:允许开发者通过结构化标签显式控制语速、音高、停顿、情绪、非语言符号(如笑声、叹气)等发音细节。
- 高保真情绪注入:支持愤怒、悲伤、狂喜、耳语、嘲讽等多种情绪状态的精确控制。
- 非语言符号融合:支持笑声、清嗓子、叹气等副语言信息的加入,消除“机器味”。
- 细粒度物理控制:支持语速(Pace)、音高(Pitch)、停顿(Break)、呼吸声(Breath)等参数的精确调节。
与传统 TTS 的区别
| 维度 | 传统 TTS | Gemini 3.1 Flash TTS |
|---|---|---|
| 控制方式 | 黑盒,依赖文本语义猜测 | 显式,通过 Audio Tags 精确控制 |
| 情绪表达 | 不可控,随机 | 可编程,可注入指定情绪 |
| 工作流集成 | 断裂,需后期剪辑 | 可编排,融入代码工作流 |
| 工业化能力 | 半手工 | 代码即成品 |
应用场景
- 高情商 AI Agent(动态情绪客服)
- 自动化内容生产线(有声书、播客)
- 多模态产品工作流(视频教程生成)
相关实体
- [[google-deepmind]] — 共同开发者
- [[google-ai]] — 共同开发者
- [[audio-tags]] — 核心技术
- [[可编排语音工作流]] — 所属范式