Gemini 3.1 Flash TTS

Gemini 3.1 Flash TTS 是 Google DeepMind 与 Google AI 于 2026 年 4 月在 Gemini API 预览版中推出的文本转语音模型。该模型的核心创新不在于单纯的拟真度提升，而在于其通过 Audio Tags（音频标签） 系统实现了语音的精确可控性和可编排性，标志着语音模型进入了“可编排工作流”阶段。

核心特性

Audio Tags 系统：允许开发者通过结构化标签显式控制语速、音高、停顿、情绪、非语言符号（如笑声、叹气）等发音细节。
高保真情绪注入：支持愤怒、悲伤、狂喜、耳语、嘲讽等多种情绪状态的精确控制。
非语言符号融合：支持笑声、清嗓子、叹气等副语言信息的加入，消除“机器味”。
细粒度物理控制：支持语速（Pace）、音高（Pitch）、停顿（Break）、呼吸声（Breath）等参数的精确调节。

与传统 TTS 的区别

维度	传统 TTS	Gemini 3.1 Flash TTS
控制方式	黑盒，依赖文本语义猜测	显式，通过 Audio Tags 精确控制
情绪表达	不可控，随机	可编程，可注入指定情绪
工作流集成	断裂，需后期剪辑	可编排，融入代码工作流
工业化能力	半手工	代码即成品

应用场景

高情商 AI Agent（动态情绪客服）
自动化内容生产线（有声书、播客）
多模态产品工作流（视频教程生成）

Gemini 3.1 Flash TTS

Gemini 3.1 Flash TTS

核心特性

与传统 TTS 的区别

应用场景

相关实体