DeepMind推出具身智能“足球运动员” 过人、射门、防守样样精通

足球是一项综合性非常强的运动，运动员不仅需要具备超出常人的身体素质，还必须掌握十分精湛的技术。对于我们人类而言，要想成为一名好的足球运动员并不容易，更不用说那些“肢体不协调且动作僵硬”的机器人了。

如今，由 Google DeepMind 研发的具身智能体（agent）——一个微型人形机器人，不仅可以快速“奔跑”“过人”“进攻”，还可以阅读比赛，正确预测足球移动方向，以及阻挡对手射门等。

据介绍，在实验中，与对比基线相比，该机器人奔跑速度快了181%，转身速度快了302%，（跌倒后）起身时间缩短了63%，踢球速度快了34%，同时也能有效地将各种技能结合起来，远远超出了人们此前对机器人的固有认知。

相关研究论文以“Learning agile soccer skills for a bipedal robot with deep reinforcement learning”为题，以封面文章的形式已发表在 Science 子刊 Science Robotics 上。

“足球智能体”是如何踢球的？

创建通用具身智能，即创建能够像动物或人类一样在物理世界中敏捷、灵巧和理解地行动的智能体，是人工智能（AI）和机器人领域长期以来共同追求的目标。

深度强化学习（deep RL）已被证明能够解决模拟角色和物理机器人的复杂运动控制问题。

如今，高质量的四足腿式机器人已经广泛应用，并被用来展示从稳健和敏捷的移动到跌倒恢复、攀爬、基本的足球技能（如带球、射门、截球或接球），以及用腿进行简单的操纵。

然而，另一方面，对于人形机器人和双足机器人的控制，投入的工作要少得多，这些机器人对稳定性、机器人安全性、自由度数量和适用硬件的可用性提出了额外的挑战。

现有的基于学习的工作更加有限，主要集中在学习和转移独特的基本技能，如行走、跑步、爬楼梯和跳跃。人形控制领域的新技术使用有针对性的基于模型的预测控制，从而限制了该方法的通用性。

在这项研究中，为使机器人能够执行长期任务，Google DeepMind 团队讨论了基于学习的人形机器人全身控制。特别是，他们使用深度强化学习训练低成本的现成机器人踢多机器人足球，机器人在训练后展现出的敏捷性和流畅性远超人们的期望。

他们专注于从本体感受和运动捕捉观察中获得的感觉运动全身控制，为此训练了一个智能体在模拟中进行简化的一对一足球，并直接将学习到的策略部署在真实机器人上（如下图）。

图｜机器人足球环境。Google DeepMind 团队创建了匹配的模拟（左）和真实（右）足球环境。球场长 5 米，宽 4 米，在真实环境中铺有 50 厘米的方形面板。真实环境还配备了一个动作捕捉系统，用于跟踪两个机器人和足球。（来源：该论文）

据论文描述，训练流程包括两个阶段。在第一阶段，研究团队训练了两种技能策略：一个是起身站立；另一个是面对未经训练的对手进行射门得分。

在第二阶段，通过提炼技能，并使用一种自我博弈形式的多智能体训练，来训练智能体完成完整的 1v1 足球任务，其中对手是从智能体自身的部分训练副本池中抽取的。

图｜智能体训练设置。分为两个阶段：在技能训练阶段（左），分别训练了足球技能和起身技能；在提炼和自我发挥阶段（右），将这两种技能提炼成一个既能从地上站起来又能踢足球的个体；第二阶段也包含了自我博弈：从早期训练中保存的策略快照中随机抽取对手。（来源：该论文）

结果发现，与从头开始训练智能体进行完整的 1v1 足球任务相比，这种两阶段方法可以带来更好的定性行为和改进的模拟到真实的转移。

据介绍，训练后的智能体展现了敏捷和动态的运动能力，包括行走、侧移、踢球、摔倒后恢复和与球的互动，并将这些技能流畅、灵活地组合在一起。

另外，智能体也涌现出了一些意想不到的策略，这些策略比脚本策略更充分地利用了系统的全部功能，而这些策略可能是人类根本没有想到的。

其中一个例子就是新出现的“转身行为”，即机器人用脚的一角做支点并旋转，这对脚本设计来说具有挑战性，但它的表现却优于较为保守的基线。

并排比较学习行为和脚本行为。（来源：Tuomas Haarnoja）

此外，这一学习方法可以发现针对特定比赛情况进行优化的行为。例如，与情景相关的敏捷技能，如踢移动的球；新出现的战术，如巧妙的防守跑动模式；以及适应比赛情况的步法，如在接近持球者时与追逐无球对手时相比，步法更短。

而且，智能体学会了对足球和对手做出预测，根据比赛环境调整动作，并在较长的时间尺度内协调动作，从而最终完成进球。

不足与展望

研究团队表示，这项工作为在动态多智能体环境中实际使用深度强化学习灵活控制人形机器人迈出了重要一步。

然而，该研究还存在一定的局限性，例如：

1）领域特定知识和随机化：研究中的学习流程依赖于一些特定领域的知识和领域随机化，这是机器人学习文献中常见的做法。例如，奖励函数设计和起立技能的训练都需要手动选择正确的技能状态，这可能对更动态的平台来说难以实现或不切实际。

2）未利用真实数据进行迁移：研究方法完全依赖于模拟到真实的迁移，而不是在训练中结合真实数据。在真实机器人上进行微调或在模拟训练中混合真实数据可能有助于改善迁移效果，并使得行为更加稳定多样。

3）未考虑更大尺寸机器人：研究应用在小型机器人上，并未考虑与更大尺寸相关的额外挑战。当前系统可以在多个方面进行改进，例如，对于更大尺寸的机器人，可能需要考虑更多的动态和稳定性问题。

4）性能随时间退化：机器人的性能会随时间快速退化，主要是因为髋关节变松或关节位置编码器校准失误。因此，需要定期进行机器人维护。

5）自我博弈设置的不稳定性：在某些情况下，自我博弈可能导致学习不稳定。采用基于群体的训练方案可能提高稳定性，并带来更好的多智能体性能。

6）奖励项的权重调整：研究中使用了多个辅助奖励项，其中一些是为了改善迁移（例如，直立奖励和膝盖扭矩惩罚），一些是为了更好的探索（例如，前进速度）。通过加权平均这些不同项作为训练奖励，并通过对超参数的广泛搜索进行调整。然而，多目标强化学习或约束强化学习可能能够获得更好的解决方案。

在未来的工作中，研究团队提出了两个重点关注的方向。

一个令人兴奋的未来工作方向是“多智能体足球”，即训练两个或更多智能体组成的团队。

可以直接应用该论文提出的方法来训练这种设置下的智能体。在初步的 2v2 足球实验中，研究团队观察到智能体学会了劳动分工，这是一种简单的合作形式：如果队友更接近球，那么智能体就不会接近球。然而，这种方法也导致智能体表现出了更少的敏捷行为。

另一个工作方向为“从原始视觉训练足球”，也就是说，仅使用机载传感器进行学习，而不依赖于运动捕捉系统的外部状态信息。

与可以直接获取球、球门和对手位置的基于状态的智能体相比，基于视觉的智能体需要从有限的高维自我中心相机观测历史记录中推断信息，并随着时间的推移整合部分状态信息，这大大增加了问题的难度。

目前，研究团队已经研究了如何训练仅使用机载 RGB 相机和本体感知的视觉智能体。通过神经辐射场模型创建了实验室的视觉渲染，并使机器人学会了包括球的追踪和对手及目标的情境感知在内的行为。