Audio Tags(音频标签)

Audio Tags(音频标签)

Audio Tags(音频标签)

Audio Tags(音频标签)是一种结构化的标签系统,允许开发者显式控制文本转语音(TTS)输出中的语速、音高、停顿、情绪、非语言符号(如笑声、叹气)等发音细节。它是 Gemini 3.1 Flash TTS 模型的核心创新,被视为“语音领域的 Markdown 语法”。

核心功能

Audio Tags 在三个维度上实现了对语音的精确控制:

  1. 细粒度的物理控制:语速(Pace)、音高(Pitch)、停顿(Break)、呼吸声(Breath)。声音不再是匀速直线的,而是充满了属于人类的参差多态。
  2. 高保真的情绪注入:愤怒、悲伤、狂喜、耳语(Whisper)、嘲讽等。开发者可以直接“命令”模型进入某种情绪状态。
  3. 非语言符号的融合:笑声、清嗓子、叹气等副语言信息的加入,让合成语音彻底摆脱了“机器味”,具备真正的表演张力。

概念性语法示例

1
2
3
4
5
6
7
8
9
10
11
12
13
<speak>
<voice name="journey-man">
你好,我是你的专属向导。
<break time="500ms" />
<emotion type="whisper" intensity="high">
(压低声音)告诉你一个秘密,前面的迷宫里藏着宝藏...
</emotion>
<laugh type="chuckle" />
<pace speed="fast">
我们要加快脚步了,赶在天黑前穿过这里!
</pace>
</voice>
</speak>

与相关概念的关系

  • [[可编排语音工作流]] — Audio Tags 是实现可编排工作流的技术基础。
  • [[全模态提示词工程]] — Audio Tags 是全模态提示词工程的核心工具。
  • [[情绪决策与音频渲染分离]] — Audio Tags 使得情绪决策与音频渲染的架构解耦成为可能。
  • [[声音配方库]] — 经过测试的 Audio Tags 组合可以沉淀为可复用的声音配方。

战略意义

Audio Tags 将语音正式纳入了现代软件工程的版图。声音像代码一样可以被调用、组合、复用,使得语音模型从“一次性的玩具”转变为“重塑千行百业的工具”。

分享到