Genie 3
概述
Genie 3是Google DeepMind开发的通用世界模型(General-Purpose World Model),是Project Genie的核心组件。它通过自回归架构生成交互式视频帧,实现了从"观看视频"到"进入世界"的质变。
技术演进
| 技术特性 | Genie 1 (2024.03) | Genie 2 (2024.12) | Genie 3 (2025.08) |
|---|---|---|---|
| 核心能力 | 基础2D模拟 | 被动视频场景生成 | 实时交互世界 |
| 分辨率 | 低保真度 | 360p | 720p |
| 交互方式 | 无 | 有限动作(非实时) | 实时导航(WASD/键盘输入) |
| 视觉一致性 | N/A | 10-20秒 | 3分钟以上(长程记忆) |
| 帧率 | N/A | N/A | 24 FPS |
核心技术
- 幻觉式交互:用户通过键盘或鼠标输入的每一个动作被视为"动作标记",模型根据当前视觉状态和动作标记概率性地预测并生成下一帧画面
- 涌现一致性:尽管没有显式3D模型,但生成的场景在用户离开并返回后仍能保持一致
- 自回归架构:类似于大语言模型生成文字的方式,逐帧预测生成交互式视频
当前局限
- 单次会话仅限60秒
- 算力需求天文数字,需要为每个私人会话分配专用处理芯片
- 物理一致性存在明显缺陷
- 没有真正的游戏目标、任务逻辑或NPC交互
相关实体
- [[project-genie]] — Genie 3的集成产品
- [[google-deepmind]] — 开发者
- [[gemini-3]] — 协同工作的语言模型
- [[nano-banana-pro]] — 协同工作的图像生成模型
- [[lingbot-world]] — 开源竞争对手