Audio Tags（音频标签）

Audio Tags（音频标签）

Audio Tags（音频标签）是一种结构化的标签系统，允许开发者显式控制文本转语音（TTS）输出中的语速、音高、停顿、情绪、非语言符号（如笑声、叹气）等发音细节。它是 Gemini 3.1 Flash TTS 模型的核心创新，被视为“语音领域的 Markdown 语法”。

核心功能

Audio Tags 在三个维度上实现了对语音的精确控制：

细粒度的物理控制：语速（Pace）、音高（Pitch）、停顿（Break）、呼吸声（Breath）。声音不再是匀速直线的，而是充满了属于人类的参差多态。
高保真的情绪注入：愤怒、悲伤、狂喜、耳语（Whisper）、嘲讽等。开发者可以直接“命令”模型进入某种情绪状态。
非语言符号的融合：笑声、清嗓子、叹气等副语言信息的加入，让合成语音彻底摆脱了“机器味”，具备真正的表演张力。

概念性语法示例

<speak>
  <voice name="journey-man">
    你好，我是你的专属向导。
    <break time="500ms" />
    <emotion type="whisper" intensity="high">
      （压低声音）告诉你一个秘密，前面的迷宫里藏着宝藏...
    </emotion>
    <laugh type="chuckle" />
    <pace speed="fast">
      我们要加快脚步了，赶在天黑前穿过这里！
    </pace>
  </voice>
</speak>

与相关概念的关系

[[可编排语音工作流]] — Audio Tags 是实现可编排工作流的技术基础。
[[全模态提示词工程]] — Audio Tags 是全模态提示词工程的核心工具。
[[情绪决策与音频渲染分离]] — Audio Tags 使得情绪决策与音频渲染的架构解耦成为可能。
[[声音配方库]] — 经过测试的 Audio Tags 组合可以沉淀为可复用的声音配方。

战略意义

Audio Tags 将语音正式纳入了现代软件工程的版图。声音像代码一样可以被调用、组合、复用，使得语音模型从“一次性的玩具”转变为“重塑千行百业的工具”。