SSML（语音合成标记语言）

SSML（Speech Synthesis Markup Language，语音合成标记语言）是最早且最成熟的语音控制标记语言，基于XML格式，提供丰富的控制标签。作为W3C推荐标准，SSML已成为事实上的行业基础，被多个主流厂商支持，包括火山引擎豆包语音、Google Cloud TTS、Azure TTS等。

主要功能标签

韵律控制：prosody标签调节语速、语调、音量
停顿控制：break标签指定停顿强度或时长
发音指定：phoneme标签通过拼音或国际音标准确指定发音
特殊读法：say-as标签控制数字、时间、电话号码等特定内容的读法
文本替换：sub标签替换内嵌文本
古诗风格：say-as标签支持古诗词的特殊韵律合成

标准化地位

SSML的优势在于标准化程度高，被多个主流厂商支持。然而，新兴AI原生TTS系统（如OpenAI、Google、NVIDIA、Mistral）各自探索了不同的控制范式，SSML未能完全覆盖这些新需求。SSML是否有计划更新以适应AI原生TTS的需求，是决定其能否继续作为行业标准的关键问题。

SSML（语音合成标记语言）

SSML（语音合成标记语言）

主要功能标签

标准化地位

相关实体