视觉-语言-动作模型

视觉-语言-动作模型（Vision-Language-Action Model，VLA）是一种将视觉输入、语言指令和动作输出直接映射的AI模型架构，代表了具身智能（Physical AI）领域的前沿技术路径。VLA模型通过大规模的人类演示数据（特别是第一人称视角数据）进行训练，使机器人能够理解自然语言指令，感知环境状态，并生成相应的物理动作。

训练数据需求

VLA模型的训练依赖于大规模、多样化、第一人称视角的真实世界数据。Micro1 在全球采集的家务视频正是为了满足这一需求，为VLA模型提供"物理世界常识"的训练材料。

代表模型

VLA架构的代表模型包括 Google 的 RT-2 和 PaLM-E 等，这些模型展示了将语言理解与机器人控制相结合的巨大潜力。