丰田研究所(TRI)在"机器人幼儿园"中使用了生成式人工智能来教机器人做早餐--或者至少是做早餐所需的单个任务,而且不需要数百小时的编程和错误修复。相反,研究人员通过赋予机器人触觉,将它们接入人工智能模型,然后像教人类一样教它们怎么做,短时间就实现了这一目标。
研究人员说,触觉是"一个关键的推动因素"。通过让机器人伸出你在下面视频中看到的枕头般的大拇指(我的说法,不是他们的),模型就能"感觉"到自己在做什么,从而获得更多信息。这就使困难的任务比单靠视觉更容易完成。
实验室灵巧操作部经理本-伯奇菲尔(Ben Burchfiel)说,"看到它们与环境互动,令人激动"。首先,"老师"演示一套技能,然后"在几个小时内",模型在后台学习。他补充说:"我们经常在下午教一个机器人,让它学习一夜,然后在第二天早上就可以看到它的新行为"。
研究人员说,他们正试图为机器人创建"大型行为模型"(Large Behavior Models),或称 LBM。麻省理工学院机器人学教授、TRI 公司机器人研究副总裁拉斯-泰德雷克(Russ Tedrake)说:"与通过记录人类书写模式来训练 LLM 类似,丰田的 LBM 将通过观察来学习,然后"泛化,执行一项它们从未被教授过的新技能"。
研究人员说,利用这一过程,他们已经训练了 60 多种具有挑战性的技能,如"倒液体、使用工具和操纵可变形物体"。他们希望到2024年底将这一数字提高到1000。
Google和特斯拉也一直在对其Robotic Transformer RT-2 进行类似的研究。与丰田公司研究人员的方法类似,他们的机器人也是利用自己的经验来推断如何做事。从理论上讲,经过人工智能训练的机器人最终可以在几乎没有任何指令的情况下执行任务,而只需要给人类一个大致的指示(比如"清理溢出物")。
但正如《纽约时报》在报道这家搜索巨头的研究时所指出的那样,Google的机器人至少还有很长的路要走。这种工作通常是"缓慢和劳动密集型的",提供足够的训练数据比向人工智能模型提供大量从互联网上下载的数据要难得多。