第一人称视角数据

第一人称视角数据

第一人称视角数据（Egocentric Vision Data）是指从执行者头部视角（如通过智能眼镜或头戴式运动相机）录制的视频数据。与固定在墙上的监控摄像头（第三人称视角）不同，第一人称视角提供了与机器人未来工作视角几乎完全重合的视觉输入。

技术优势

视线与注意力对齐：头戴式摄像头的画面中心通常就是执行者的视觉焦点，为AI提供了明确的"注意力机制"训练信号，帮助系统学习在执行特定动作时应关注画面的哪个区域。
视觉-语言-动作模型（VLA）的直接映射：第一人称视角视频使得AI能够更顺畅地将"眼睛看到的像素"和"人类大脑下达的任务"转化为"空间坐标与机械控制指令"。

在具身智能中的作用

第一人称视角数据是训练具身智能模型的关键材料，Micro1 在全球采集的家务视频正是采用这种视角，旨在为机器人提供与真实操作场景一致的训练数据。