Audio Tags(音频标签)
Audio Tags(音频标签)是一种结构化的标签系统,允许开发者显式控制文本转语音(TTS)输出中的语速、音高、停顿、情绪、非语言符号(如笑声、叹气)等发音细节。它是 Gemini 3.1 Flash TTS 模型的核心创新,被视为“语音领域的 Markdown 语法”。
核心功能
Audio Tags 在三个维度上实现了对语音的精确控制:
- 细粒度的物理控制:语速(Pace)、音高(Pitch)、停顿(Break)、呼吸声(Breath)。声音不再是匀速直线的,而是充满了属于人类的参差多态。
- 高保真的情绪注入:愤怒、悲伤、狂喜、耳语(Whisper)、嘲讽等。开发者可以直接“命令”模型进入某种情绪状态。
- 非语言符号的融合:笑声、清嗓子、叹气等副语言信息的加入,让合成语音彻底摆脱了“机器味”,具备真正的表演张力。
概念性语法示例
1 | <speak> |
与相关概念的关系
- [[可编排语音工作流]] — Audio Tags 是实现可编排工作流的技术基础。
- [[全模态提示词工程]] — Audio Tags 是全模态提示词工程的核心工具。
- [[情绪决策与音频渲染分离]] — Audio Tags 使得情绪决策与音频渲染的架构解耦成为可能。
- [[声音配方库]] — 经过测试的 Audio Tags 组合可以沉淀为可复用的声音配方。
战略意义
Audio Tags 将语音正式纳入了现代软件工程的版图。声音像代码一样可以被调用、组合、复用,使得语音模型从“一次性的玩具”转变为“重塑千行百业的工具”。