Gemini Robotics-ER 1.6

Gemini Robotics-ER 1.6

Gemini Robotics-ER 1.6

Gemini Robotics-ER 1.6是谷歌DeepMind于2026年4月发布的具身推理模型,是Gemini Robotics-ER系列的最新版本。ER代表"Embodied Reasoning"(具身推理),强调让AI从纯数字世界走向物理行动。该模型不是端到端的视觉-动作模型,而是一个高阶推理引擎(“思考层”),负责空间推理、视觉理解和任务规划,并与底层执行器(如波士顿动力Spot机器人)协同工作。

核心能力

  • 空间推理:通过"指向"(pointing)在图像中精确定位关键点,用于计数、关系判断、轨迹规划和约束遵守。能将指向作为中间表示分解复杂任务。
  • 代理视觉:将视觉推理与代码执行无缝结合,能自主编写代码动态修正相机畸变、光线干扰等问题,实现亚刻度级精度的仪表读取。
  • 多视角推理:实时关联多路视频流,理解它们的空间关系,判断任务是否完成。
  • 成功检测:判断任务是否完成的能力,解决了机器人"何时停止行动"的难题。
  • 物理约束与安全:内置物理约束机制,能判断物体重量、属性,避免执行危险操作。在ASIMOV安全基准测试中,视频风险检测能力较Gemini 3.0 Flash提升10%,文本描述提升6%。

技术架构

采用分层设计:作为"思考层"与底层执行器(如Spot的运动控制)协同工作。擅长调用外部工具:Google搜索、世界知识库、视觉-语言-动作(VLA)模型或用户自定义函数。

应用场景

  • 工业巡检:与波士顿动力Spot机器人结合,实现24小时不间断监测压力、液位、温度等关键参数。
  • 物体定位与工具清点:在车间中辅助物体定位、工具清点等任务。

可用性

已上线Google AI Studio和Gemini API,开发者可立即试用。支持用户上传10-50张标注失败案例图像帮助优化模型。

分享到