掩蔽潜在特征预测 (MLFP)

V-JEPA 2的核心技术方法。通过观察大量视频数据，学习在不完整信息中推断物理世界的因果律。与Sora等模型在像素层级"画"视频不同，MLFP工作在抽象表示空间，通过掩蔽部分潜在特征并预测被掩蔽的内容来学习世界的语义结构。在SSv2基准测试中达到77.3%准确率。