全模态提示词工程

全模态提示词工程

全模态提示词工程

全模态提示词工程是一种新的工程实践,要求开发者不仅要会写文本指令,还要懂得如何组合 Audio Tags 来“导演”声音。这是随着 Gemini 3.1 Flash TTS 等可编排语音模型的出现而兴起的新技能领域。

核心要求

  • 理解 Audio Tags 的语法和功能(语速、音高、停顿、情绪、非语言符号等)。
  • 能够通过组合标签来塑造角色的“灵魂”和情感表达。
  • 掌握在不同场景下(实时交互 vs 异步生成)平衡控制粒度与延迟的技巧。

最佳实践

  • 建立声音配方库(Voice Preset Library):将经过测试的 Audio Tags 组合沉淀下来,复用于不同场景。
  • 情绪决策与音频渲染分离:让 LLM 充当“导演”负责输出文本和 Audio Tags,让 TTS 充当“演员”负责精准执行。
  • 场景适配:在实时通话应用中谨慎使用复杂标签以控制延迟;在异步内容生成中火力全开追求极致表现力。

相关概念

  • [[Audio Tags]] — 全模态提示词工程的核心工具。
  • [[可编排语音工作流]] — 全模态提示词工程的应用场景。
  • [[情绪决策与音频渲染分离]] — 推荐的架构设计原则。
  • [[声音配方库]] — 团队内部的知识沉淀方法。
分享到