从文字到轨迹：麻省理工学院的AI用语言帮助机器人完成复杂的导航任务

0 cnBeta.COM 2024-08-18 09:42:57

摘要：

麻省理工学院和麻省理工学院-IBM 沃森人工智能实验室的研究人员开发出一种新颖的人工智能导航方法，可将视觉数据转换为语言描述，帮助机器人完成复杂的导航任务。这种方法使用大型语言模型生成合成训练数据，并根据语言输入做出导航决策。虽然这种方法并不优于基于视觉的模型，但它具有资源密集度较低、更容易适应各种任务和环境的优势。

Robot-Maid-Household-Cleaning-Vacuum_webp（WEBP 图像，2000x1333 像素） — 缩放 (69-.jpg

也许有一天，您会希望家用机器人把脏衣服搬到楼下，然后放进地下室最左侧角落的洗衣机里。机器人需要结合您的指示和它的视觉观察来确定完成这项任务的步骤。

对于人工智能代理来说，这说起来容易做起来难。目前的方法通常利用多个手工制作的机器学习模型来处理任务的不同部分，这需要大量的人力和专业知识来构建。这些方法利用视觉表征直接做出导航决策，需要大量的视觉数据进行训练，而这些数据往往很难获得。

为了克服这些挑战，麻省理工学院和麻省理工学院-IBM 沃森人工智能实验室的研究人员设计了一种导航方法，将视觉表征转换为语言片段，然后将其输入一个大型语言模型，从而实现多步骤导航任务的所有部分。

他们的方法不是将机器人周围环境图像中的视觉特征编码为视觉表示（这需要大量计算），而是创建描述机器人观点的文字说明。一个大型语言模型利用这些文字说明来预测机器人为完成用户的语言指令而应采取的行动。

由于他们的方法纯粹利用基于语言的表征，因此可以使用大型语言模型高效生成大量合成训练数据。

虽然这种方法并没有超越使用视觉特征的技术，但在缺乏足够视觉数据进行训练的情况下，它的表现却很出色。研究人员发现，将基于语言的输入与视觉信号相结合可以提高导航性能。

"通过纯粹使用语言作为感知表征，我们的方法更为直接。因为所有的输入都可以编码成语言，所以我们可以生成人类可以理解的轨迹，"电子工程与计算机科学（EECS）研究生、有关这种方法的论文的第一作者潘博文（Bowen Pan）说。

潘的合著者包括他的顾问、麻省理工学院苏世民计算机学院战略行业参与主任、麻省理工学院MIT-IBM沃森人工智能实验室主任、计算机科学与人工智能实验室（CSAIL）高级研究科学家奥德-奥利瓦（Aude Oliva）；电子工程科学副教授、CSAIL成员菲利普-伊索拉（Philip Isola）；资深作者、电子工程科学助理教授、CSAIL成员金允（Yoon Kim）；以及麻省理工学院MIT-IBM沃森人工智能实验室和达特茅斯学院的其他人员。这项研究将在计算语言学协会北美分会会议上发表。

用语言解决视觉问题

潘说，由于大型语言模型是目前最强大的机器学习模型，因此研究人员试图将它们融入称为视觉语言导航的复杂任务中。然而，这类模型采用文本输入，无法处理来自机器人摄像头的视觉数据。因此，团队需要找到一种使用语言的方法。

他们的技术利用一个简单的字幕模型来获取机器人视觉观察的文字描述。这些文字说明与基于语言的指令相结合，并输入一个大型语言模型，由该模型决定机器人下一步应采取的导航步骤。

大语言模型会输出机器人在完成该步骤后应该看到的场景说明。这将用于更新历史轨迹，以便机器人能够追踪到自己曾经到达过的地方。

为了简化这一过程，研究人员设计了模板，以便将观察信息以标准的形式呈现给模型--即机器人可以根据周围环境做出的一系列选择。

例如，标题可以是"在你左侧 30 度的地方有一扇门，门边有一盆植物，在你的后面有一间小办公室，里面有一张桌子和一台电脑"等等。由模型来选择机器人应该向门还是向办公室移动。

潘说："最大的挑战之一是，如何以适当的方式将这类信息编码成语言，让代理了解任务是什么，以及他们应该如何回应。"

语言的优势

在对这种方法进行测试时，他们发现这种方法虽然无法超越基于视觉的技术，但却具有一些优势。

首先，与复杂的图像数据相比，文本合成所需的计算资源更少，因此他们的方法可用于快速生成合成训练数据。在一次测试中，他们根据 10 个真实世界的视觉轨迹生成了 10000 个合成轨迹。

该技术还能弥补在模拟环境中训练出来的代理在真实世界中表现不佳的缺陷。这种差距经常出现，因为计算机生成的图像会因光照或颜色等因素而与真实世界的场景大相径庭。但潘说，描述合成图像与真实图像的语言就很难区分了。

此外，他们的模型所使用的表述方式也更容易被人类理解，因为它们是用自然语言编写的。

"如果代理未能达到目标，我们可以更容易地确定它在哪里失败以及失败的原因。也许历史信息不够清晰，或者观察结果忽略了一些重要细节，"潘说。

此外，他们的方法可以更容易地应用于不同的任务和环境，因为它只使用一种类型的输入。只要数据可以编码成语言，他们就可以使用相同的模型，而无需做任何修改。但缺点之一是，他们的方法自然会丢失一些基于视觉的模型所能捕捉到的信息，如深度信息。

然而，研究人员惊讶地发现，将基于语言的表征与基于视觉的方法相结合，可以提高代理的导航能力。他说："也许这意味着语言可以捕捉到一些纯视觉特征无法捕捉到的更高层次的信息。"

这是研究人员希望继续探索的一个领域。他们还希望开发一种以导航为导向的字幕机，以提高该方法的性能。此外，他们还想探究大型语言模型表现出空间意识的能力，看看这将如何帮助基于语言的导航。

编译自/ScitechDaily

arXiv:2310.07889

我们在FebBox(https://www.febbox.com/cnbeta) 开通了新的频道，更好阅读体验，更及时更新提醒，欢迎前来阅览和打赏。

查看评论

今日最热

加载中...

最新资讯

今日最热