Google发布离线机器人AI模型:具备视觉识别、语言理解能力

摘要:

据媒体报道,Google DeepMind推出革命性机器人控制模型Gemini Robotics On-Device。该模型的核心突破在于能在机器人本地离线运行,无需依赖云端连接,即可同时处理视觉识别、语言理解与动作执行任务,流畅响应人类指令完成任务。

作为专为双臂机器人设计的VLA(视觉-语言-动作)基础模型,Gemini On-Device 能直接解析自然语言指令并驱动机器人执行相应动作。

其本地运行特性在医疗操作、灾难救援、工厂自动化等对实时性和稳定性要求高的场景中优势显著,有效避免了云端传输的延迟和潜在风险。

该模型还具备较强的平台适应性,通过少量学习即可适配不同机器人硬件,有望加速机器人技术的普及。不过,其在复杂环境下的安全策略和高级逻辑规划方面仍需完善。

目前发布的模型基于Gemini 2.0架构,尚未集成最新的 Gemini 2.5 特性,产业化应用处于测试阶段。Gemini Robotics On-Device的推出是谷歌在通用机器人AI领域的关键布局,将与英伟达GR00T、OpenAI RT-2等竞争对手展开角逐。

我们在FebBox(https://www.febbox.com/cnbeta) 开通了新的频道,更好阅读体验,更及时更新提醒,欢迎前来阅览和打赏。
查看评论
created by ceallan