Google概述了利用视频和大型语言模型训练机器人的新方法

2024 年将是生成式人工智能/大型基础模型和机器人技术交叉领域的重要一年。从学习到产品设计，各种应用的潜力让人兴奋不已。Google的 DeepMind 机器人研究人员是探索这一领域潜力的众多团队之一。在今天的一篇博文中，该团队重点介绍了正在进行的研究，这些研究旨在让机器人更好地理解我们人类希望它们做些什么。

传统上，机器人的一生都专注于重复执行一项单一的任务。单一用途的机器人往往非常擅长这一件事，但即使是这样，当无意中出现变化或错误时，它们也会遇到困难。

新发布的 AutoRT 旨在利用大型基础模型，达到多种不同目的。在 DeepMind 团队给出的一个标准示例中，该系统首先利用视觉语言模型（VLM）来提高态势感知能力。AutoRT 能够管理一个协同工作的机器人舰队，并配备摄像头，以获取环境布局和其中的物体。

与此同时，大型语言模型还能提出硬件（包括终端执行器）可以完成的任务。许多人认为，语言模型是开启机器人技术的关键，它能有效理解更多的自然语言指令，减少对硬编码技能的需求。

在过去的七个多月里，该系统已经进行了大量测试。AutoRT 能够同时协调多达 20 个机器人和 52 种不同的设备。总之，DeepMind 已经收集了大约 77000 次测试，其中包括 6000 多项任务。

该团队的新产品还有 RT-Trajectory，它利用视频输入进行机器人学习。很多团队都在探索使用 YouTube 视频作为大规模训练机器人的方法，但 RT-Trajectory 增加了一个有趣的层次，即在视频上叠加手臂动作的二维草图。

该团队指出："这些轨迹以 RGB 图像的形式，在模型学习机器人控制策略时为其提供了低层次的实用视觉提示。"

DeepMind 表示，在测试 41 项任务时，该训练的成功率是 RT-2 训练的两倍，分别为 63% 和 29%。

"RT-Trajectory利用了丰富的机器人运动信息，这些信息存在于所有机器人数据集中，但目前尚未得到充分利用，"该团队指出。"RT-Trajectory不仅代表着在制造能够在新情况下高效准确移动的机器人的道路上又迈进了一步，而且还释放了现有数据集中的知识"。