OpenAI TTS

OpenAI TTS

OpenAI的TTS系统通过instructions参数提供自然语言控制，代表了自然语言指令式控制方式的典型代表。其核心特点是偏向用户体验优先，降低使用门槛。

主要特性

自然语言控制：通过自然语言提示（instructions）控制语音的各个方面，包括口音、情感范围、语调、印象、语速、音调和耳语等
13种内置语音选项：alloy, ash, ballad, coral, echo, fable, nova, onyx, sage, shimmer, verse, marin, cedar
不支持自定义声音克隆
用户体验优先：降低使用门槛，但缺乏结构化标签的精确性

与结构化标签的对比

OpenAI TTS的自然语言控制方式与SSML、Google Audio Tags等结构化标签方案形成鲜明对比。自然语言方式对用户友好，但精确性不足；结构化标签方式精确可控，但学习成本较高。两种方式各有适用场景。

相关实体

[[audio-tags]] — 结构化标签方案的代表
[[ssml]] — 最成熟的结构化标签标准
[[gemini-3-1-flash-tts]] — Google的TTS模型，采用Audio Tags方案
[[voxtral-tts]] — Mistral的TTS模型，采用参考音频推断式控制