情绪决策与音频渲染分离

情绪决策与音频渲染分离

情绪决策与音频渲染分离

情绪决策与音频渲染分离是一种架构设计原则,旨在将“用什么语气说话”的决策权与“如何渲染声音”的执行权解耦。该原则是构建稳定、可玩性高的可编排语音工作流的关键。

架构逻辑

  • LLM 充当“导演”:负责结合上下文分析用户情绪,决定输出文本和对应的 Audio Tags(如 <emotion type="calm"><pace speed="slow">)。
  • TTS 充当“演员”:只负责精准执行 LLM 输出的 Audio Tags 指令,渲染出符合要求的声音。

优势

  • 系统稳定性提升:避免 TTS 模型自行“猜测”情绪导致的不确定性。
  • 可玩性增强:开发者可以独立调整 LLM 的情绪决策逻辑或 TTS 的渲染参数。
  • 工作流清晰:情绪决策与音频渲染成为两个独立的、可测试的模块。

相关概念

  • [[Audio Tags]] — 实现该原则的技术基础。
  • [[可编排语音工作流]] — 该原则的应用场景。
  • [[全模态提示词工程]] — 该原则要求开发者掌握的新技能。
分享到