高质量多模态数据

高质量多模态数据

高质量多模态数据

定义

高质量多模态数据是指包含视频、动作标签等多种模态的高价值数据。在 AMI Labs 的叙事中,高质量多模态数据被视为训练世界模型的关键,将取代纯文本数据的主导地位。

与 LLM 的数据差异

  • LLM:依赖互联网上的文本数据,数据量大但信息密度低。
  • 世界模型:依赖视频数据(尤其是带有操作标签的动作数据),数据量小但信息密度高。

重要性

文本数据无法教给 AI 什么是动量、什么是摩擦力。只有通过高质量的多模态数据(尤其是视频数据),AI 才能学习到物理世界的运作规律。

与现有维基的连接

高质量多模态数据的概念与现有维基中的 [[数据要素]] 和 [[高质量数据集]] 高度相关,为数据价值的讨论提供了新的维度。

分享到