多模态融合
多模态融合是指视频、图像、音频等不同模态的生成和理解技术走向原生统一的技术趋势。
最新进展
[[Google]]的[[Veo 3.1]]和Nano Banana 2代表了多模态融合的最新突破:
- 视频生成具备原生同步音效
- 物理规律模拟达到电影级精度
- 角色锁定功能解决长视频一致性难题
相关概念
- [[physical-ai]]:多模态融合为Physical AI提供感知和理解物理世界的能力
- [[voice-models-enter-orchestrable-workflow-era]]:音频模态的可编排化与多模态融合形成互补