快讯

Google DeepMind宣布启动Gemini Robotics‑ER 1.6版本升级，核心在于让机器人以多视角推理理解物理世界

Google DeepMind宣布启动Gemini Robotics‑ER 1.6版本升级，核心在于让机器人以多视角推理理解物理世界。该模型具备更强视觉与空间感知能力，可识别杂乱环境中的目标物体、判断任务完成度，并自主决定重试或切换流程。系统能实时融合多路摄像画面，构建完整场景理解，实现“任务级决策”。

DeepMind称，新版强化了工业巡检与实验室操作能力：可修正常见镜头畸变、自动读取机械表盘刻度，并自行生成计算代码以校准测量结果。升级还集中提升安全性——在执行搬运任务时会自动避开液体或超重物体，并较先前版本提升10%的伤害风险检测准确率。

这一版本被多家英文科技媒体视为“通用机器人感知系统”的关键里程碑，将视觉理解、世界知识与主动推理融合为同一架构。

来源：公开信息

ABAB AI 解读

Gemini Robotics‑ER 1.6的重要性不在于单一性能提升，而在于它代表AI系统首次接近真正的“物理常识”。传统语言模型依赖文本逻辑，缺乏对空间、重量、材质的连贯理解，而ER 1.6通过多模态融合建立了“世界连续性”——AI开始理解自己行动在真实空间中的因果链条。

这意味着AI从“语言代理”向“物理代理”转变。它不再只是计算文字，而是参与现实操作系统；这对制造、仓储、能源巡检等领域是生产关系级的变革。AI不再是管理接口，而成为执行层自治力量。

更深层的趋势在于平台化——当感知模型与物理执行体系统一后，AI对现实世界的解释权与操作权将逐步收敛。Gemini‑ER象征的是一种工业权力重构：从“算法服务人”向“算法理解世界”跨了一步。谁能控制这类具备世界模型的AI，谁就控制了下一轮自动化文明的底层坐标系。

Google

来源

2026/04/16 03:33·

1 分钟阅读

·7 天前