多模态融合

多模态融合

多模态融合是指视频、图像、音频等不同模态的生成和理解技术走向原生统一的技术趋势。

最新进展

[[Google]]的[[Veo 3.1]]和Nano Banana 2代表了多模态融合的最新突破：

视频生成具备原生同步音效
物理规律模拟达到电影级精度
角色锁定功能解决长视频一致性难题

相关概念

[[physical-ai]]：多模态融合为Physical AI提供感知和理解物理世界的能力
[[voice-models-enter-orchestrable-workflow-era]]：音频模态的可编排化与多模态融合形成互补