AMD Radeon Instinct MI100 CDNA计算卡FP32性能超越英伟达A100

近日，WCCFTech 分享了有关 CDNA GPU 架构的 AMD Radeon Instinct MI100 计算卡的性能参数。与英伟达 A100 相比，MI100 计算卡在 FP32 算力和性价比上都给我们留下了深刻的印象。不过另一方面，MI100 在人工智能（AI）和高性能计算（HPC）上仍被英伟达 Ampere 超越。

（组图 via WCCFTech）

除了据说来自 AMD 官方演示的 Radeon Instinct MI100 幻灯片，AdpredTV 还展示了英伟达 Volta 和 Ampere GPU 的基准测试对比。

早前有文章称，AMD Radeon Instinct MI100 GPU 将于 2020 下半年投放市场。不过 AdoredTV 最新分享的幻灯片表明，AMD 及其合作伙伴还有服务器领域的后续计划。

首先，AMD 计划推出一款面向高性能计算的定制服务器。其采用了 2P 设计，基于双路霄龙 CPU 平台，可选上一代 Rome 或最新的 Milan 芯片。

每颗霄龙 CPU 都通过第二代 Infinity Fabric 互连方案，与两块 Radeon Instinct MI100 加速卡连接。单卡热设计功耗 300W，四路配置可提供 136 T-Flops 的 FP32（SGEMM）算力。

其它规格包括支持 256 GB/s 的 PCIe 4.0，四卡组合的内存容量 128GB、带宽 4.9 TB/s 。单卡具有 32GB 的 HBM2e 显存，带宽 1.225 TB/s 。标准配置或无缘 XGMI，并将仅限于 1U 机架版本。

至于上市时间，据说配备 AMD 霄龙（Rome / Milan）的高性能 1U 服务器会在 2020 年 12 月推出，基于英特尔至强 CPU 平台的衍生版本也有望在 2021 年 2 月发布。

其次是一款 AMD Radeon Instinct MI100 3U 服务器，其具有更强大的规格，比如支持为两颗霄龙 CPU 连接八张 MI100 计算卡。基于 XGMI 方案的每组 4 卡可提供双向 100 GB/s 的连接和 1.2 TB/s 的带宽。

四路 MI100 加速卡的 FP32 算力为 272 T-Flops，PCIe 带宽 512 GB/s 。HMB 显存容量 256GB，带宽 9.8 TB/s 。基于 3U 外形的机架平台的总额定功率为 3 kW 。

为便于评估性能，AdoredTV 还将 MI100 计算卡和英伟达公司的 Volta V100 / Ampere A100 GPU 加速卡进行了比较。后者具有 XSM 的外形尺寸，并提供 400W / 250W 两种 PCIe 接口版本。

基准测试表明，Radeon Instinct MI100 计算卡的 FP32 性能较英伟达 Ampere A100 方案高出约13％、同时更是 Volta V100 GPU 的两倍以上。

性价比方面，MI100 是 V100S 的 2.4 倍、较 Ampere A100 高出 50% 。即使在 Resenet 配置中纳入 32 张计算卡，性能的缩放也几乎是线性的，给我们留下了相当深刻的印象。

最后，PPT 中还提到 AMD 将在三大领域提供更好的性能 / 价值，包括石油天然气、学术研究、以及高性能计算 / 机器学习。

不过在 FP64 计算、人工智能和数据分析等其它类型的 HPC 工作负载中，英伟达 100 加速卡依然具有更出色的性能。此外与 AMD 相比，英伟达还拥有多实例 GPU 架构等方面的优势。

得益于在 Ampere A100 GPU 上使用了最新一代的 Tensor 内核，其 FP64 / FP16 / 张量性能指标分别提升 2.5 / 2 / 2 倍。