本周二晚些时候,微软 Azure 在其社交媒体平台 X 上分享了一张有趣的图片,展示了 GPU 加速服务器的巅峰之作--英伟达 "Blackwell" GB200 驱动的 AI 系统。
微软是英伟达最大的客户之一,该公司经常在第一时间收到产品,并将其集成到云计算和公司基础设施中。 甚至英伟达在设计未来产品时也会听取微软等公司的反馈意见,尤其是像现已取消的 NVL36x2 系统这样的产品。 下图显示的是一个庞大的集群,它将计算区域大致划分为整个系统的三分之一,并将系统的三分之二用于闭环液体冷却。
整个系统使用 Infiniband 网络连接,这是 GPU 加速系统的标准,因为其数据包传输延迟较低。 虽然系统的细节还不太清楚,但我们可以看到,集成的闭环液体冷却系统允许 GPU 机架采用 1U 外形,以提高密度。
鉴于这些系统将进入更广泛的微软 Azure 数据中心,系统需要易于维护和冷却。 微软数据中心能够处理的功率和热量输出有限,因此这些类型的系统通常都符合微软设计的内部规格。 当然,也有计算密度更高的系统,如英伟达(NVIDIA)的 NVL72,但是超大规模用户通常应该选择符合其数据中心规格的其他定制解决方案。
最后,微软指出,我们可以期待在即将于 11 月举行的微软 Ignite 大会上看到更多细节,并了解更多有关 GB200 驱动的人工智能系统的信息。