视频模型（机器人训练）

视频模型（机器人训练）

视频模型是[[Arda]]的核心技术概念，指通过输入真实工厂视频序列，预测下一个物理状态和机器人应执行动作的大规模世界模型。它借鉴了OpenAI Sora、NVIDIA Cosmos、Google Genie等视频生成/预测技术，但专注于工业制造场景。

与传统方法的区别

传统编程式：写死动作序列，灵活性差
传统强化学习+仿真：存在巨大的[[模拟到现实差距]]
Arda的视频模型：直接使用真实工厂视频数据，从根本上消除sim-to-real gap

技术原理

输入工厂监控视频序列（4K/8K）
用Vision Transformer编码为高维表征
融合多模态数据（力反馈、温度、PLC信号）
预测下一个物理状态（零件位置、关节扭矩、碰撞风险）
输出机器人应执行的动作指令

优势

利用工厂已有的海量监控视频数据
数据可无限扩充，符合[[缩放定律]]
模型能理解整个生产流程的因果关系
支持[[持续学习闭环]]：上线后通过新视频在线微调

挑战

算力需求极高，边缘部署需要高效SLM或专用NPU
安全性和可解释性是监管红线
数据隐私问题（工厂视频可能包含知识产权）

与相关概念的对比

与[[仿真优先]]（Intrinsic）形成方法论竞争：Arda主张"真实视频优先"，挑战了仿真在机器人训练中的核心地位
是[[端到端机器人策略]]的技术基础
是[[physical-ai]]在工业制造领域落地的关键使能技术