AMD发布Instinct MI325X：八卡2TB HBM3E、FP8性能超每秒2亿亿次

在Advancing AI 2024大会上，AMD正式发布了新款GPU加速卡“Instinct MI325X”。它在大获成功的MI300X基础上再进一步，主要是增强了HBM内存部分。

【硬件规格、性能篇】

MI325X配备了多达256GB HBM3E内存，相比于MI300X又增加了64GB，还是八颗，但单颗容量从24GB增至32GB。

同时，带宽从5.3TB/s来到了6TB/s，同样增加了大约13％，Infinity Fabric总线的带宽则还是896GB/s。

性能方面倒是没啥变化，还是FP16 1.3 PFlops(每秒1300万亿次)、FP8 2.6 PFlops。

很自然的，核心规格也是原封不动：5nm XCD模块搭配6nm IOD模块，3.5D封装，1530亿个晶体管，304个计算单元。

不过，AMD透露MI325X的功耗达到了1000W，相比MI320X增加了750W。

MI325X也支持八块并行组成一个平台，这就有多达2TB HBM3E、48TB/s带宽，总的性能高达FP16 10.4 PFlops(每秒1.04亿亿次)、FP8 20.8 PFlops(每秒2.08亿亿次)。

这个规模对比NVIDIA H200 HGX，分别有80％、30％、30％的优势。

对比NVIDIA H200，无论单卡还是八卡平台，不同大模型推理的性能都可以领先20-40％。

训练性能方面，单卡可领先H200 10％，八卡平台则是持平。

MI325X加速卡和平台将在四季度内投产，而合作伙伴的整机系统、基础架构解决方案，将从明年第一季度起连续推出。

【生态伙伴、软件篇】

GPU加速器这样的产品要想成功，不但要有强大的硬件规格与性能，甚至更重要的还有两点，一是生态合作，二是软件支持。

生态方面，AMD Instinct系列的“朋友圈”不断壮大，领先的OEM整机厂商、云服务厂商、AI方案厂商都选择了AMD，那些我们熟悉的行业巨头名字都在这份越来越长的名单中。

尤其是微软、OpenAI、Meta，都在部署越来越多的Instinct平台。

软件方面，AMD ROCm开发平台是一套完整的AI软件堆栈，硬件之上，运行时、编译器、开发工具、库、AI框架、AI模型与算法一应俱全。

AMD ROCm的进化速度也在加快，新特性新功能不断加入进来，不但已经支持全部重要的AI框架与模型，还在不断优化对生成式AI的支持，包括新的算法、新的库等等，对开发者也越来越友好。

ROCm开发平台的性能也在不断优化提升，最新的6.2版本对比6.0版本，不同大模型的训练性能提升了1.7-1.9倍，平均约1.8倍；推理性能更是提升了1.9-2.8倍，平均约2.4倍。

这些都是无需升级硬件，完全靠软件优化得来的，可以说是“白捡”。

同时，AMD与开发者社区一直保持着良好、深度的合作，也是最大的贡献者之一，尤其是在PyTorch机器学习库、Triton编程语言和编译器上提供了及时、全面的支持。

AMD一直坚持开放开源的原则，不但自己的诸多技术对外公开，还全力支持着开源社区，不断壮大开源的力量。

以MI300X为例，上机无需任何调试适配，就能支持超过100万个生成式AI模型，尤其是第一时间支持Llama 3.1/3.2等领先大模型的最新版本。

良好的支持当然不仅仅是能用，更是好用，比如Llama 3 405B大模型上，MIX300X的延迟相比NVIDIA H100有着1.2倍的领先。

顺带一提，AMD近期还以6.65亿美元的价格，完成了对欧洲最大的私人AI实验室Silo AI的收购，获得了全面的端到端AI解决方案、约300名AI专家，势必会大大增强AMD在欧洲的AI业务实力，分析人士认为有望超越NVIDIA。

附MI325X官方精美图赏——