全模态提示词工程

全模态提示词工程

全模态提示词工程是一种新的工程实践，要求开发者不仅要会写文本指令，还要懂得如何组合 Audio Tags 来“导演”声音。这是随着 Gemini 3.1 Flash TTS 等可编排语音模型的出现而兴起的新技能领域。

核心要求

理解 Audio Tags 的语法和功能（语速、音高、停顿、情绪、非语言符号等）。
能够通过组合标签来塑造角色的“灵魂”和情感表达。
掌握在不同场景下（实时交互 vs 异步生成）平衡控制粒度与延迟的技巧。

最佳实践

建立声音配方库（Voice Preset Library）：将经过测试的 Audio Tags 组合沉淀下来，复用于不同场景。
情绪决策与音频渲染分离：让 LLM 充当“导演”负责输出文本和 Audio Tags，让 TTS 充当“演员”负责精准执行。
场景适配：在实时通话应用中谨慎使用复杂标签以控制延迟；在异步内容生成中火力全开追求极致表现力。

相关概念

[[Audio Tags]] — 全模态提示词工程的核心工具。
[[可编排语音工作流]] — 全模态提示词工程的应用场景。
[[情绪决策与音频渲染分离]] — 推荐的架构设计原则。
[[声音配方库]] — 团队内部的知识沉淀方法。