
谷歌DeepMind团队近日突破性地发布了能在设备端独立运行的机器人AI系统——Gemini Robotics On-Device。这个无需联网的模型让机器人首次具备了处理系鞋带、叠衣物等高精度操作的能力,彻底摆脱了对云端计算的依赖。
核心突破在本地大脑
传统机器人AI依赖云端传输数据,导致响应延迟和网络依赖。新模型采用视觉-语言-动作(VLA)三合一架构,直接在机器人本体处理信息。就像给机器人装上独立神经系统,手术室等网络敏感场景不再需要担心信号中断。实测中机械臂响应速度提升至毫秒级,抓取动作误差控制在毫米范围。
精细操作超越预期
在演示视频中,搭载该系统的机械臂流畅完成三项关键测试:拉开密封包装袋的锯齿形拉链、将散乱T恤叠成方块、交叉缠绕鞋带并打出牢固绳结。这些需要触觉反馈和微力控制的动作,过去必须通过预设程序完成,如今AI能自主判断力度和轨迹。项目团队透露,系统通过分析海量人类操作视频,建立了物理交互的深层理解。
开发门槛大幅降低
开发者现可通过Gemini Robotics SDK工具包,为ALOHA、Franka FR3及Apollo等主流机器人平台部署该模型。定制新功能无需编写复杂代码,只需进行50-100次任务演示,系统自动学习操作逻辑。配合MuJoCo物理模拟器,开发者能在虚拟环境中验证动作安全性。
双重防护保障安全
系统设置了两道安全关卡:Live API实时解析指令语义,阻止危险操作指令;底层安全控制器则精密调控关节扭矩和移动速度。当机械臂检测到意外阻力时,能在0.3秒内自动停止动作。
"这就像Gemini理解文字和图像那样,现在它能理解物理世界的互动规则,"项目负责人Carolina Parada解释技术原理,“模型通过视觉观察预测物体形变,通过语言指令理解任务目标,最终生成符合物理规律的动作序列。”
目前该技术仍处于封闭测试阶段,仅向认证开发者开放。值得关注的是,该系统基于Gemini 2.0架构开发,尚未整合谷歌最新推出的多模态长上下文技术。随着设备端AI处理能力的持续进化,未来仓库分拣、家庭护理等场景或迎来真正的智能机械助手——它们不再需要工程师实时监控,而是像人类一样观察、思考、行动。