AMD将搭建由120万颗GPU驱动的全球最强AI超级计算机

0 cnBeta.COM 2024-06-28 07:54:41

摘要：

英伟达（NVIDIA）一直是数据中心最主要的 GPU 供应商，这已不是什么秘密，但现在随着需求的增长，AMD 很有可能成为这一市场的有力竞争者。最近，一位客户找到 AMD，要求创建一个由 120 万个 GPU 组成的人工智能训练集群。这有可能使它比目前速度最快的超级计算机 Frontier 还要强大 30 倍。2023 年，AMD 供应的数据中心 GPU 还不到 2%。

AMD 数据中心解决方案总经理 Forrest Norrod 在接受The Next Platform 采访时透露，他们收到了客户关于使用 120 万个 GPU 构建人工智能训练集群的真实询问。从这个角度来看，目前的人工智能训练集群通常使用数千个 GPU，通过高速互连连接到多个本地服务器机架上。

目前正在考虑的人工智能开发规模是前所未有的。诺罗德说："正在筹建的一些训练集群确实强大得令人匪夷所思。事实上，目前已知用于训练人工智能模型的最大超级计算机是Frontier，它拥有37888个Radeon GPU，这使得AMD潜在的超级计算机比Frontier强大30倍。"

当然，事情没那么简单。即使以目前的功率水平，在创建人工智能训练集群时也有大量隐患需要考虑。人工智能训练需要较低的延迟来提供及时的结果，需要消耗大量的电能，而且必须考虑到硬件故障，即使只有几千个 GPU 也不例外。

大多数服务器的利用率在20%左右，并在远程机器上处理数千个小型异步作业。然而，人工智能培训的兴起正在导致服务器结构发生重大变化。为了跟上机器学习模型和算法的发展，人工智能数据中心必须配备专门为这项工作设计的大量计算能力。人工智能训练本质上是一项大型同步作业，需要集群中的每个节点尽可能快地来回传递信息。

最有趣的是，这些数据来自 AMD，而 AMD 在 2023 年的数据中心 GPU 出货量中只占不到 2%。而占据另外 98% 市场份额的 NVIDIA 则对客户要求其开发的产品守口如瓶。作为市场领导者，我们只能想象他们正在开发什么。

虽然拟议中的 120 万 GPU 超级计算机可能看起来有些离谱，但诺罗德称，"非常清醒的人"正在考虑在人工智能训练集群上花费多达千亿美元。这并不令人震惊，因为在过去几年里，人工智能在科技界的发展可谓突飞猛进。看来，企业已经准备好在人工智能和机器学习上投入巨资，以保持竞争力。

查看评论

今日最热

加载中...

最新资讯

今日最热