Genie 3

Genie 3

概述

Genie 3是Google DeepMind开发的通用世界模型（General-Purpose World Model），是Project Genie的核心组件。它通过自回归架构生成交互式视频帧，实现了从"观看视频"到"进入世界"的质变。

技术演进

技术特性	Genie 1 (2024.03)	Genie 2 (2024.12)	Genie 3 (2025.08)
核心能力	基础2D模拟	被动视频场景生成	实时交互世界
分辨率	低保真度	360p	720p
交互方式	无	有限动作（非实时）	实时导航（WASD/键盘输入）
视觉一致性	N/A	10-20秒	3分钟以上（长程记忆）
帧率	N/A	N/A	24 FPS

核心技术

幻觉式交互：用户通过键盘或鼠标输入的每一个动作被视为"动作标记"，模型根据当前视觉状态和动作标记概率性地预测并生成下一帧画面
涌现一致性：尽管没有显式3D模型，但生成的场景在用户离开并返回后仍能保持一致
自回归架构：类似于大语言模型生成文字的方式，逐帧预测生成交互式视频

当前局限

单次会话仅限60秒
算力需求天文数字，需要为每个私人会话分配专用处理芯片
物理一致性存在明显缺陷
没有真正的游戏目标、任务逻辑或NPC交互

相关实体

[[project-genie]] — Genie 3的集成产品
[[google-deepmind]] — 开发者
[[gemini-3]] — 协同工作的语言模型
[[nano-banana-pro]] — 协同工作的图像生成模型
[[lingbot-world]] — 开源竞争对手