SSML(语音合成标记语言)

SSML(语音合成标记语言)

SSML(语音合成标记语言)

SSML(Speech Synthesis Markup Language,语音合成标记语言)是最早且最成熟的语音控制标记语言,基于XML格式,提供丰富的控制标签。作为W3C推荐标准,SSML已成为事实上的行业基础,被多个主流厂商支持,包括火山引擎豆包语音、Google Cloud TTS、Azure TTS等。

主要功能标签

  • 韵律控制prosody标签调节语速、语调、音量
  • 停顿控制break标签指定停顿强度或时长
  • 发音指定phoneme标签通过拼音或国际音标准确指定发音
  • 特殊读法say-as标签控制数字、时间、电话号码等特定内容的读法
  • 文本替换sub标签替换内嵌文本
  • 古诗风格say-as标签支持古诗词的特殊韵律合成

标准化地位

SSML的优势在于标准化程度高,被多个主流厂商支持。然而,新兴AI原生TTS系统(如OpenAI、Google、NVIDIA、Mistral)各自探索了不同的控制范式,SSML未能完全覆盖这些新需求。SSML是否有计划更新以适应AI原生TTS的需求,是决定其能否继续作为行业标准的关键问题。

相关实体

  • [[audio-tags]] — Google Gemini 3.1 Flash TTS引入的结构化标签系统,与SSML形成竞争与互补
  • [[gemini-3-1-flash-tts]] — Google的TTS模型,采用Audio Tags方案
  • [[openai-tts]] — OpenAI的TTS系统,采用自然语言指令式控制
  • [[语音AI标准化]] — 标准化进展的总览页面
分享到