具身智能版ImageNet
"具身智能版ImageNet"是一个类比概念,指代一个大规模、多样化、包含动作信息的物理世界数据集,类似于2012年引发计算机视觉革命的ImageNet图像数据库。ImageNet包含了上千万张带标签的图片,推动了深度学习在视觉领域的突破;而"具身智能版ImageNet"则旨在为物理世界AI提供训练所需的海量、多样化、第一人称视角的人类演示数据。
意义
构建"具身智能版ImageNet"被视为通往通用人工智能(AGI)的基础设施工程。Micro1 在全球50多个国家采集家务视频的行动,正是这一宏大目标的具体实践。当数以千万小时计的拖地、洗碗、叠衣服的第一人称视频被清洗、标注并输入到巨大的神经网络中时,机器人将能够快速理解真实世界的物理规律。