
谷歌DeepMind实验室近日突破机器人技术关键瓶颈,推出完全脱离云端运行的Gemini Robotics本地化AI模型。这套系统让机器人在断网环境下仍能精准执行系鞋带、开拉链等毫米级操作,为医疗救援等特殊场景铺平道路。
离线智能突破网络枷锁
传统机器人依赖云端计算导致响应延迟,在急救手术或灾害现场等网络不稳定场景存在致命缺陷。新模型通过视觉-语言-动作(VLA)三重架构,将智能决策完全下沉至设备端。机器人通过摄像头实时观察环境,理解操作指令,再驱动机械臂完成动作,整套流程在本地闭环运行。实测显示,该系统响应速度比云端方案提升十倍以上。
双机械臂攻克精细操作
面对日常生活中的复杂任务,模型展现出惊人灵活性:灵巧拆解包裹封口拉链、精准折叠不同材质衣物、甚至完成交叉系鞋带动作。其核心在于双机械臂协同系统,当前已适配ALOHA桌面机器人、Franka FR3工业机械臂及Apollo人形机器人三大平台。实验室视频显示,机械手指能根据鞋带张力实时调整力度,避免拉拽过紧。
50次演示即可定制新技能
为降低开发门槛,谷歌同步开放Gemini Robotics SDK工具包。开发者只需通过物理演示录制50-100次任务过程,系统就能自动学习新技能操作逻辑。配合MuJoCo物理模拟器,开发者可在虚拟环境中验证动作安全性,大幅减少实体测试成本。
双重保险守护人机协作
安全体系采用分层设计:上层Live API实时解析指令语义,阻止危险行为指令;底层安全控制器精确调控机械臂运动速度与力度,当传感器检测到异常阻力时立即停止操作。项目负责人Carolina Parada解释:“这延续了Gemini的多模态理解基因,只不过输出对象从文本代码变成了物理动作。”
目前该模型基于Gemini 2.0架构,与最新2.5版本存在代差,仅限受邀开发者测试。但随着终端算力持续进化,离线智能机器人或将成为手术室、核电站等敏感场景的破局关键——当网络成为奢侈品,自主行动能力就是生存必需品。