埃隆·马斯克的xAI团队在短短19天内搭建由10万张H200构成的超级集群
H200 Blackwell GPU 是英伟达目前旗舰款的人工智能加速卡,该 GPU 提供超强的算力,不过要想用来训练大型语言模型并提供服务那还得更庞大的计算集群。日前英伟达创始人黄仁勋在接受采访时称赞埃隆马斯克旗下人工智能公司 xAI 取得的卓越成就:在短短 19 天内搭建由 10 万张 H200 GPU 构建的超级集群。
整个搭建过程最重要的就是复杂的设备安装与连接,xAI 的这个新超级集群不仅有 10 万张 H200 加速卡,还有 10 万张其他型号的加速卡。
黄仁勋表示通常数据中心需要四年时间才能完成搭建,这包括三年时间用于规划和建设,第四年用于运送设备、安装设备并进行调试使其正常运行。
即便在现有的数据中心内安装 20 万张 GPU 也是个极其庞大的过程,数据中心配备液冷技术和强大的电力设备,而英伟达也派遣了大量工程师协助 xAI 进行部署。
有趣的是在短短 19 天内这 10 万张 H200 不仅被成功部署,甚至 xAI 已经在这个集群上跑了一遍模型,也就是进行首次训练,这个进度着实让人震惊。
不过放在埃隆马斯克身上这好像也不是特别让人惊讶,例如在此前搬迁 X/Twitter 服务器过程中,工程师需要大量时间规划并将机柜拆除再包上各种防撞泡棉。
而埃隆马斯克显然非常嫌弃这种标准工作流和进度,所以他的做法是直接进机房拔掉机柜电源,接着让震惊的工程师们直接化身搬运工将机柜推出去直接装车。
所以黄仁勋了解此次数据中心搭建过程后夸赞这是个前所未有的结果,而且可能也不会再被其他公司复制,至少在很长一段时间内不会。
注意:这是黄仁勋接受采访时发布的消息,该数据中心并不是最近才搭建的。