全模态提示词工程
全模态提示词工程是一种新的工程实践,要求开发者不仅要会写文本指令,还要懂得如何组合 Audio Tags 来“导演”声音。这是随着 Gemini 3.1 Flash TTS 等可编排语音模型的出现而兴起的新技能领域。
核心要求
- 理解 Audio Tags 的语法和功能(语速、音高、停顿、情绪、非语言符号等)。
- 能够通过组合标签来塑造角色的“灵魂”和情感表达。
- 掌握在不同场景下(实时交互 vs 异步生成)平衡控制粒度与延迟的技巧。
最佳实践
- 建立声音配方库(Voice Preset Library):将经过测试的 Audio Tags 组合沉淀下来,复用于不同场景。
- 情绪决策与音频渲染分离:让 LLM 充当“导演”负责输出文本和 Audio Tags,让 TTS 充当“演员”负责精准执行。
- 场景适配:在实时通话应用中谨慎使用复杂标签以控制延迟;在异步内容生成中火力全开追求极致表现力。
相关概念
- [[Audio Tags]] — 全模态提示词工程的核心工具。
- [[可编排语音工作流]] — 全模态提示词工程的应用场景。
- [[情绪决策与音频渲染分离]] — 推荐的架构设计原则。
- [[声音配方库]] — 团队内部的知识沉淀方法。