情绪决策与音频渲染分离

情绪决策与音频渲染分离

情绪决策与音频渲染分离是一种架构设计原则，旨在将“用什么语气说话”的决策权与“如何渲染声音”的执行权解耦。该原则是构建稳定、可玩性高的可编排语音工作流的关键。

架构逻辑

LLM 充当“导演”：负责结合上下文分析用户情绪，决定输出文本和对应的 Audio Tags（如 <emotion type="calm"><pace speed="slow">）。
TTS 充当“演员”：只负责精准执行 LLM 输出的 Audio Tags 指令，渲染出符合要求的声音。

优势

系统稳定性提升：避免 TTS 模型自行“猜测”情绪导致的不确定性。
可玩性增强：开发者可以独立调整 LLM 的情绪决策逻辑或 TTS 的渲染参数。
工作流清晰：情绪决策与音频渲染成为两个独立的、可测试的模块。

相关概念

[[Audio Tags]] — 实现该原则的技术基础。
[[可编排语音工作流]] — 该原则的应用场景。
[[全模态提示词工程]] — 该原则要求开发者掌握的新技能。