VLA (Vision-Language-Action)

VLA (Vision-Language-Action)

VLA（视觉-语言-行动）是一种桥接视觉、语言和行动的多模态模型架构，由[[IBM]]与[[NVIDIA]]于2026年初联合发布。

技术架构

"模态绑定+链式扩散"架构：视觉与语言特征通过跨模态Transformer对齐，再注入行动空间预测头。

性能提升

在Humanoid Perception Benchmark上，多感官融合准确率达87%，较2025年单模态模型提升41%。
在视频理解+指令生成联合任务中，错误率从22%降至4.7%。

意义

VLA模型标志着多模态AI正式进入"人类式感知"阶段，是[[多模态统一架构]]和[[Physical AI]]发展的关键技术。