OpenAI TTS
OpenAI的TTS系统通过instructions参数提供自然语言控制,代表了自然语言指令式控制方式的典型代表。其核心特点是偏向用户体验优先,降低使用门槛。
主要特性
- 自然语言控制:通过自然语言提示(instructions)控制语音的各个方面,包括口音、情感范围、语调、印象、语速、音调和耳语等
- 13种内置语音选项:alloy, ash, ballad, coral, echo, fable, nova, onyx, sage, shimmer, verse, marin, cedar
- 不支持自定义声音克隆
- 用户体验优先:降低使用门槛,但缺乏结构化标签的精确性
与结构化标签的对比
OpenAI TTS的自然语言控制方式与SSML、Google Audio Tags等结构化标签方案形成鲜明对比。自然语言方式对用户友好,但精确性不足;结构化标签方式精确可控,但学习成本较高。两种方式各有适用场景。
相关实体
- [[audio-tags]] — 结构化标签方案的代表
- [[ssml]] — 最成熟的结构化标签标准
- [[gemini-3-1-flash-tts]] — Google的TTS模型,采用Audio Tags方案
- [[voxtral-tts]] — Mistral的TTS模型,采用参考音频推断式控制