快讯

Google DeepMind宣布启动Gemini Robotics‑ER 1.6版本升级,核心在于让机器人以多视角推理理解物理世界

Google DeepMind宣布启动Gemini Robotics‑ER 1.6版本升级,核心在于让机器人以多视角推理理解物理世界。该模型具备更强视觉与空间感知能力,可识别杂乱环境中的目标物体、判断任务完成度,并自主决定重试或切换流程。系统能实时融合多路摄像画面,构建完整场景理解,实现“任务级决策”。

DeepMind称,新版强化了工业巡检与实验室操作能力:可修正常见镜头畸变、自动读取机械表盘刻度,并自行生成计算代码以校准测量结果。升级还集中提升安全性——在执行搬运任务时会自动避开液体或超重物体,并较先前版本提升10%的伤害风险检测准确率。

这一版本被多家英文科技媒体视为“通用机器人感知系统”的关键里程碑,将视觉理解、世界知识与主动推理融合为同一架构。

来源:公开信息

ABAB AI 解读

Gemini Robotics‑ER 1.6的重要性不在于单一性能提升,而在于它代表AI系统首次接近真正的“物理常识”。传统语言模型依赖文本逻辑,缺乏对空间、重量、材质的连贯理解,而ER 1.6通过多模态融合建立了“世界连续性”——AI开始理解自己行动在真实空间中的因果链条。

这意味着AI从“语言代理”向“物理代理”转变。它不再只是计算文字,而是参与现实操作系统;这对制造、仓储、能源巡检等领域是生产关系级的变革。AI不再是管理接口,而成为执行层自治力量。

更深层的趋势在于平台化——当感知模型与物理执行体系统一后,AI对现实世界的解释权与操作权将逐步收敛。Gemini‑ER象征的是一种工业权力重构:从“算法服务人”向“算法理解世界”跨了一步。谁能控制这类具备世界模型的AI,谁就控制了下一轮自动化文明的底层坐标系。

Google

来源

·
·
1 分钟阅读
·7 天前
分享: