Genie 3

Genie 3

Genie 3

概述

Genie 3是Google DeepMind开发的通用世界模型(General-Purpose World Model),是Project Genie的核心组件。它通过自回归架构生成交互式视频帧,实现了从"观看视频"到"进入世界"的质变。

技术演进

技术特性 Genie 1 (2024.03) Genie 2 (2024.12) Genie 3 (2025.08)
核心能力 基础2D模拟 被动视频场景生成 实时交互世界
分辨率 低保真度 360p 720p
交互方式 有限动作(非实时) 实时导航(WASD/键盘输入)
视觉一致性 N/A 10-20秒 3分钟以上(长程记忆)
帧率 N/A N/A 24 FPS

核心技术

  • 幻觉式交互:用户通过键盘或鼠标输入的每一个动作被视为"动作标记",模型根据当前视觉状态和动作标记概率性地预测并生成下一帧画面
  • 涌现一致性:尽管没有显式3D模型,但生成的场景在用户离开并返回后仍能保持一致
  • 自回归架构:类似于大语言模型生成文字的方式,逐帧预测生成交互式视频

当前局限

  • 单次会话仅限60秒
  • 算力需求天文数字,需要为每个私人会话分配专用处理芯片
  • 物理一致性存在明显缺陷
  • 没有真正的游戏目标、任务逻辑或NPC交互

相关实体

  • [[project-genie]] — Genie 3的集成产品
  • [[google-deepmind]] — 开发者
  • [[gemini-3]] — 协同工作的语言模型
  • [[nano-banana-pro]] — 协同工作的图像生成模型
  • [[lingbot-world]] — 开源竞争对手
分享到