高质量多模态数据
定义
高质量多模态数据是指包含视频、动作标签等多种模态的高价值数据。在 AMI Labs 的叙事中,高质量多模态数据被视为训练世界模型的关键,将取代纯文本数据的主导地位。
与 LLM 的数据差异
- LLM:依赖互联网上的文本数据,数据量大但信息密度低。
- 世界模型:依赖视频数据(尤其是带有操作标签的动作数据),数据量小但信息密度高。
重要性
文本数据无法教给 AI 什么是动量、什么是摩擦力。只有通过高质量的多模态数据(尤其是视频数据),AI 才能学习到物理世界的运作规律。
与现有维基的连接
高质量多模态数据的概念与现有维基中的 [[数据要素]] 和 [[高质量数据集]] 高度相关,为数据价值的讨论提供了新的维度。