情绪决策与音频渲染分离
情绪决策与音频渲染分离是一种架构设计原则,旨在将“用什么语气说话”的决策权与“如何渲染声音”的执行权解耦。该原则是构建稳定、可玩性高的可编排语音工作流的关键。
架构逻辑
- LLM 充当“导演”:负责结合上下文分析用户情绪,决定输出文本和对应的 Audio Tags(如
<emotion type="calm"><pace speed="slow">)。 - TTS 充当“演员”:只负责精准执行 LLM 输出的 Audio Tags 指令,渲染出符合要求的声音。
优势
- 系统稳定性提升:避免 TTS 模型自行“猜测”情绪导致的不确定性。
- 可玩性增强:开发者可以独立调整 LLM 的情绪决策逻辑或 TTS 的渲染参数。
- 工作流清晰:情绪决策与音频渲染成为两个独立的、可测试的模块。
相关概念
- [[Audio Tags]] — 实现该原则的技术基础。
- [[可编排语音工作流]] — 该原则的应用场景。
- [[全模态提示词工程]] — 该原则要求开发者掌握的新技能。