Gemini Robotics-ER 1.6

Gemini Robotics-ER 1.6是谷歌DeepMind于2026年4月发布的具身推理模型，是Gemini Robotics-ER系列的最新版本。ER代表"Embodied Reasoning"（具身推理），强调让AI从纯数字世界走向物理行动。该模型不是端到端的视觉-动作模型，而是一个高阶推理引擎（“思考层”），负责空间推理、视觉理解和任务规划，并与底层执行器（如波士顿动力Spot机器人）协同工作。

核心能力

空间推理：通过"指向"（pointing）在图像中精确定位关键点，用于计数、关系判断、轨迹规划和约束遵守。能将指向作为中间表示分解复杂任务。
代理视觉：将视觉推理与代码执行无缝结合，能自主编写代码动态修正相机畸变、光线干扰等问题，实现亚刻度级精度的仪表读取。
多视角推理：实时关联多路视频流，理解它们的空间关系，判断任务是否完成。
成功检测：判断任务是否完成的能力，解决了机器人"何时停止行动"的难题。
物理约束与安全：内置物理约束机制，能判断物体重量、属性，避免执行危险操作。在ASIMOV安全基准测试中，视频风险检测能力较Gemini 3.0 Flash提升10%，文本描述提升6%。

技术架构

采用分层设计：作为"思考层"与底层执行器（如Spot的运动控制）协同工作。擅长调用外部工具：Google搜索、世界知识库、视觉-语言-动作（VLA）模型或用户自定义函数。

应用场景

工业巡检：与波士顿动力Spot机器人结合，实现24小时不间断监测压力、液位、温度等关键参数。
物体定位与工具清点：在车间中辅助物体定位、工具清点等任务。

可用性

已上线Google AI Studio和Gemini API，开发者可立即试用。支持用户上传10-50张标注失败案例图像帮助优化模型。