Frontier超算使用其37000个MI250X GPU中的3000个成功运行1万亿参数的LLM

摘要:

Frontier超级计算机是世界领先的超级计算机,也是目前唯一正在运行的Exascale级超算。这台机器由 AMD 的 EPYC 和 Instinct 硬件驱动,不仅具有顶级的 HPC 性能,还是全球第二高效的超级计算机。预印本 Arxiv 上提交的一份报告显示,Frontier 超级计算机已通过"超参数调整"达到了训练一万亿个参数的能力,与GPT-4不相上下,树立了新的行业标杆。

Frontier-Supercomputer-1456x819.png

我们先来简单回顾一下 Frontier 超级计算机的优势。ORNL的这台超级计算机从设计之初就采用了AMD的第三代EPYC Trento CPU和Instinct MI250X GPU加速器。它安装在美国田纳西州的橡树岭国家实验室(ORNL),由能源部(DOE)运营。目前,它使用 8,699,904 个内核实现了 1.194 Exaflop/s的速度。HPE Cray EX 架构结合了针对 HPC 和 AI 优化的第 3 代 AMD EPYC CPU、AMD Instinct 250X 加速器和 Slingshot-11 互连。在超级计算机 Top500.org 榜单上,Frontier 一直保持着第一的位置,显示了其统治力。

图片.png

Frontier 所创下的新纪录是实施有效策略培训 LLM 和最高效地使用板载硬件的结果。该团队通过对 220 亿个、1750 亿个和 1 万亿个参数的广泛测试取得了显著的成果,这些数字是对模型训练过程进行优化和微调的结果。这些结果是仅仅使用了 3000 个 AMD 的 MI250X AI 加速器取得的,尽管这些加速器是相对过时的硬件,但还是显示出了其强大的性能。

ORNL-Crusher-Node-Block-Diagram-with-AMD-EPYC-CPU-AMD-Instinct-MI250X-GPU-_1.jpg

更有趣的是,整个"前沿"超级计算机拥有 37000 个 MI250X GPU,因此可以想象使用整个 GPU 池为 LLM 提供算力时的性能。AMD 还即将在全新的超级计算机中采用其 MI300 GPU 加速器,并配备强大的 ROCm 6.0 生态系统,进一步加速人工智能性能。

服务器和数据中心领域的未来前景广阔,值得注意的是,Frontier 目前采用的硬件在业内并不算新。随着生成式人工智能领域的不断进步,未来市场显然需要更强的计算能力,这就是为什么为该领域设计的硬件的进步对下一代的发展至关重要。

查看评论
created by ceallan