麻省理工学院研究人员开发出训练通用机器人的新方法

在动画片《杰森一家》中，机器人女仆罗西可以无缝切换，从打扫房间、做饭再到倒垃圾。但在现实生活中，训练通才机器人仍是一项重大挑战。通常情况下，工程师会收集特定于某个机器人和任务的数据，然后利用这些数据在受控环境中训练机器人。然而，收集这些数据的成本高且耗时，而且机器人可能很难适应以前从未见过的环境或任务。

（图片来源：MIT）

据外媒报道，为了更好地训练通才机器人，麻省理工学院（MIT）的研究人员开发出多用途技术，将来自多个来源的大量异构数据整合至一个系统中，以教会不同机器人完成广泛的任务。这种方法需要对齐来自不同域的数据（如模拟和真实的机器人）和多种模式（包括视觉传感器和机械臂位置编码器），以实现生成式人工智能（AI）模型可以处理的共享“语言”。相关研究发表在arXiv预印本服务器上。

通过结合大量数据，这种方法可以训练机器人执行各种任务，而无需每次都从头开始。该方法比传统技术更快、成本更低，因为需要的特定任务数据要少得多。此外，在模拟和现实世界实验中，其表现比从头开始训练高出20%以上。电子工程和计算机科学（EECS）研究生Lirui Wang表示：“在机器人技术领域，人们经常声称没有足够的训练数据。但在我看来，另一个大问题是这些数据来自这么多不同的域、模式和机器人硬件。这项工作展示了如何将这些数据整合在一起以训练机器人。”

受大语言模型（LLM）启发

机器人“策略”通过传感器观察，如摄像头图像或本体感知测量，跟踪机器人手臂的速度和位置，然后告诉机器人如何移动以及移动到何处。通常情况下，人们通过模仿学习来训练策略，这意味着需要人类演示动作或远程操作机器人以生成数据，这些数据被反馈到学习策略的AI模型中。由于这种方法使用少量特定于任务的数据，因此机器人在环境或任务发生变化时经常会失败。

为了开发更好的方法，研究人员从GPT-4等大语言模型中汲取灵感。这些模型使用大量不同的语言数据来进行预训练，接着输入少量特定任务数据进行微调。基于如此多数据进行预训练，有助于模型适应并良好执行各种任务。Wang表示：“在语言使用域（language domain），数据全部都是句子。在机器人技术中，考虑到数据中的所有异质性，如果想要以类似的方式进行预训练，我们需要一种不同的架构。”

机器人数据接受多种形式，如摄像头图像、语言指令和深度图。同时，每个机器人都具有独特的机械性，它们的手臂、夹持器和传感器的数量和方向都不同。此外，收集数据的环境差异很大。MIT团队开发了一种名为异构预训练转换器（HPT）的新架构，可以统一来自不同模式和域的数据。研究人员将一个机器学习模型（称为转换器）置于架构中心，以处理视觉和本体感觉输入。转换器与构成大语言模型主干的模型属于同一类型。

研究人员将视觉和本体感觉数据对齐为同类型输入（称为token），以供转换器处理。每个输入都使用相同固定数量的通证（token）表示。然后，转换器将所有输入映射到共享空间，通过处理和学习更多的数据成长为巨大的预训练模型。转换器越大，其性能就越好。用户只需向HPT提供关于机器人的设计、设置和他们希望其执行任务的少量数据。然后，HPT会将转换器在预训练中获得的知识转移到学习新任务中。

实现灵巧的动作

开发HPT的最大挑战之一是创建大规模数据集来预训练转换器，其中包括四类52个数据集（超过20万个机器人轨迹），包括人类演示视频和模拟。研究人员还需要开发一种有效方法，将来自传感器阵列的原始本体感觉信号转化为转换器可以处理的数据。Wang表示：“本体感觉是实现许多灵巧动作的关键。我们架构中的通证数量总是相同的，所以我们同样重视本体感觉和视觉。”

当测试HPT时，与每次从头开始训练相比，它在模拟和现实世界任务中的表现提高20%以上。即使任务与预训练数据非常不同，HPT仍然可以提高性能。卡内基梅隆大学（Carnegie Mellon University）机器人研究所副教授David Held（未参与这项工作）表示：“本文提供了一种新颖的方法，以训练跨多个机器人实施例的单一策略。这可以跨多种数据集进行训练，使机器人能够学习方法，从而明显扩大它们可以进行训练的数据集规模。它还允许模型快速适应新的机器人实施例，随着新的机器人设计不断涌现，这具有重要意义。”

未来，研究人员希望探讨如何通过数据多样性来提高HPT的性能。他们还希望增强HPT，使其能够处理未标记数据，如同GPT-4和其他大语言模型。David Held表示：“我们的梦想是拥有一个通用机器人大脑，人们可以下载并将其用于自己的机器人，而无需进行任何训练。虽然这还处于早期阶段，但我们将继续努力，并希望通过扩展实现机器人策略突破，就像大语言模型一样。”