人类演示数据
人类演示数据(Human Demonstration Data)是指人类在执行任务时记录下来的视频、动作轨迹、力反馈等数据,用于机器人通过模仿学习(Imitation Learning)来获取技能。在具身智能(Physical AI)领域,由于"Sim2Real Gap"的存在,虚拟仿真无法精确模拟现实世界的软体动力学和噪音,直接从真实世界采集人类演示数据成为训练视觉-语言-动作模型(VLA)的核心数据来源。
采集方法
- 第一人称视角视频:通过头戴式摄像头或智能眼镜录制,提供与机器人未来工作视角一致的训练数据。
- 遥操作:人类通过操控设备远程控制机器人执行任务,记录动作指令。
- 动作捕捉:使用传感器记录人类肢体的精确运动轨迹。
应用
人类演示数据广泛应用于机器人技能学习,如抓取、操作、导航等任务。Micro1 在全球50多个国家采集的家务视频是这一领域的典型案例。