SSML(语音合成标记语言)
SSML(Speech Synthesis Markup Language,语音合成标记语言)是最早且最成熟的语音控制标记语言,基于XML格式,提供丰富的控制标签。作为W3C推荐标准,SSML已成为事实上的行业基础,被多个主流厂商支持,包括火山引擎豆包语音、Google Cloud TTS、Azure TTS等。
主要功能标签
- 韵律控制:
prosody标签调节语速、语调、音量 - 停顿控制:
break标签指定停顿强度或时长 - 发音指定:
phoneme标签通过拼音或国际音标准确指定发音 - 特殊读法:
say-as标签控制数字、时间、电话号码等特定内容的读法 - 文本替换:
sub标签替换内嵌文本 - 古诗风格:
say-as标签支持古诗词的特殊韵律合成
标准化地位
SSML的优势在于标准化程度高,被多个主流厂商支持。然而,新兴AI原生TTS系统(如OpenAI、Google、NVIDIA、Mistral)各自探索了不同的控制范式,SSML未能完全覆盖这些新需求。SSML是否有计划更新以适应AI原生TTS的需求,是决定其能否继续作为行业标准的关键问题。
相关实体
- [[audio-tags]] — Google Gemini 3.1 Flash TTS引入的结构化标签系统,与SSML形成竞争与互补
- [[gemini-3-1-flash-tts]] — Google的TTS模型,采用Audio Tags方案
- [[openai-tts]] — OpenAI的TTS系统,采用自然语言指令式控制
- [[语音AI标准化]] — 标准化进展的总览页面