VLA (Vision-Language-Action)
VLA(视觉-语言-行动)是一种桥接视觉、语言和行动的多模态模型架构,由[[IBM]]与[[NVIDIA]]于2026年初联合发布。
技术架构
"模态绑定+链式扩散"架构:视觉与语言特征通过跨模态Transformer对齐,再注入行动空间预测头。
性能提升
- 在Humanoid Perception Benchmark上,多感官融合准确率达87%,较2025年单模态模型提升41%。
- 在视频理解+指令生成联合任务中,错误率从22%降至4.7%。
意义
VLA模型标志着多模态AI正式进入"人类式感知"阶段,是[[多模态统一架构]]和[[Physical AI]]发展的关键技术。