Gemini 3.1 Flash TTS

Gemini 3.1 Flash TTS

Gemini 3.1 Flash TTS

Gemini 3.1 Flash TTS 是 Google DeepMind 与 Google AI 于 2026 年 4 月在 Gemini API 预览版中推出的文本转语音模型。该模型的核心创新不在于单纯的拟真度提升,而在于其通过 Audio Tags(音频标签) 系统实现了语音的精确可控性和可编排性,标志着语音模型进入了“可编排工作流”阶段。

核心特性

  • Audio Tags 系统:允许开发者通过结构化标签显式控制语速、音高、停顿、情绪、非语言符号(如笑声、叹气)等发音细节。
  • 高保真情绪注入:支持愤怒、悲伤、狂喜、耳语、嘲讽等多种情绪状态的精确控制。
  • 非语言符号融合:支持笑声、清嗓子、叹气等副语言信息的加入,消除“机器味”。
  • 细粒度物理控制:支持语速(Pace)、音高(Pitch)、停顿(Break)、呼吸声(Breath)等参数的精确调节。

与传统 TTS 的区别

维度 传统 TTS Gemini 3.1 Flash TTS
控制方式 黑盒,依赖文本语义猜测 显式,通过 Audio Tags 精确控制
情绪表达 不可控,随机 可编程,可注入指定情绪
工作流集成 断裂,需后期剪辑 可编排,融入代码工作流
工业化能力 半手工 代码即成品

应用场景

  • 高情商 AI Agent(动态情绪客服)
  • 自动化内容生产线(有声书、播客)
  • 多模态产品工作流(视频教程生成)

相关实体

  • [[google-deepmind]] — 共同开发者
  • [[google-ai]] — 共同开发者
  • [[audio-tags]] — 核心技术
  • [[可编排语音工作流]] — 所属范式
分享到