性能吊打Intel Xeon和NVIDIA H100 这款“万能CPU”升级到192核了

摘要:

斯洛伐克的服务器芯片设计公司Tachyum去年曾推出了128核的Prodigy(神童)处理器,号称在性能、功耗、成本等方面均吊打IntelXeon处理器的。近期,Tachyum又带来了更为强大的Prodigy 2 处理器,不仅内核数量提升到了192核,同时在缓存容量等众多方面都有提升。



升级192核心,AI性能翻倍

Tachyum表示,通过利用最新的 EDA 工具,Prodigy 2 处理器的CPU内核由原来的64位128核心升级到了192核心,主频依然高达高达5.7GHz;L2/L3缓存容量也从128MB增加到了192MB;芯片的 SERDES 数量也从64个增加到了96个;增加了对16 x DDR5 7200 内存的支持,单个Prodigy芯片可连接多达32条DIMM;还拥有48个PCIe 5.0控制器。

性能方面,在AI训练和推理任务中,能够实现24个AI PetaFLOPS,相比上一代AI性能翻倍;在HPC(高性能计算)负载中,可达到90 TeraFLOPS。



虽然官网的资料显示192核心的Prodigy 2 是基于5nm工艺,但是今年6月的一篇新闻稿显示,Prodigy 2可能将会升级成3nm工艺。

以上的诸多提升,也使得Prodigy 2 处理器die size从 500mm2增加到 600mm2,增加了 20%。

后续,Prodigy 处理器可能还会进一步增加内核数量,但芯片将会受到带宽限制。

目前Prodigy 2 支持的是 16 通道 DDR5 内存接口,速度可达 7200 MT/s 及以上,如果要增加额外的内核,就需要更高速的内存,比如HBM。预计这款处理器将会在2025年推向市场。

全新“万能CPU”架构

需要指出的是,Tachyum公司所设计的Prodigy处理器号称是全球首个真正的“通用处理器

不同于传统的CPU和GPU解决方案,Prodigy旨在将 CPU、GPGPU 和 TPU 的功能统一到同一个内核当中,并配备强大向量计算单元和矩阵计算单元,让HPC和AI工作负载在同一架构上运行。

单颗核心就可以支持广泛的数据类型,包括 FP64、FP32、TF32、BF16、Int8、FP8 和 TAI。

更为关键的是,Prodigy还可以运行x86、Arm、RISC-V的二进制文件。堪称“万能CPU”。

据此前外媒chipsandcheese此前的分析,Prodigy的内核架构是将GPU的矢量吞吐量与CPU的单线程性能相结合,但代价是高功耗。

不过,他们认为Prodigy有可能成为具有竞争力的 HPC 或 AI 芯片。

性能吊打IntelXeon和NVIDIA H100?

资料显示,Tachyum于2022年发布的上一代的Prodigy处理器拥有64核心(T864)及128核心(T16128)两个版本。其中64核心版本,主频4GHz,基于台积电7nm工艺。

128核心版本,基于5nm工艺,FCLGA封装,尺寸为64毫米×84毫米,工作频率高达5.7GHz,拥有超过128MB的L2+L3高速缓存、16个DDR5内存控制器和64个PCIe5.0通道,可以处理通用计算、高性能计算(HPC)和AI工作负载。

Tachyum表示,Prodigy处理器每个核心能够拥有2x 1024位矢量单元(IntelGolden Cove核心也只有2× 512 位向量单元),4096位矩阵单元,以及每时钟4条失序指令。还可支持虚拟化和高级RAS。

当时Tachyum公司还宣称,128核版的Prodigy超级计算机芯片在HPC(高性能计算)负载中,能够执行12个AI PetaFLOPS和90 TeraFLOPS,性能是Intel最快的Xeon处理器的4倍,是英伟达(NVIDIA) H100 GPU的双精度浮点性能的3倍;在 AI 工作负载中,FP8性能是NVIDIA H100的6倍。

同时,Prodigy处理器电源效率也达到了Xeon处理器的10倍,而且成本大约只有传统硬件的三分之一。

从Tachyum公司的描述来看,128核的Prodigy处理器的AI性能可直接吊打IntelXeon、NVIDIA H100,并且能效也更高,成本还更低。

更为关键的是,还能运行x86、Arm、RISC-V的二进制文件。也就是说,可以直接兼容x86、Arm、RISC-V生态,简直是强大的离谱!

对此,外界一直是持怀疑高度态度,认为是“PPT造芯”。

相比之下,最新的192核的Prodigy处理器在在AI训练和推理性能方面,提升到了24个AI PetaFLOPS。看来性能更是要吊打IntelXeon了。

有意思的是,目前Tachyum公司的官网已经看不到了关于64核心(T864)及128核心(T16128) Prodigy处理器的介绍,仅保留了更早之前的48核心(T848)及96核心(T896) Prodigy处理器,以及最新发布的196核心(T16192)Prodigy处理器。

如此看来,48核心(T848)及96核心(T896) Prodigy处理器已经被取消。


不过,Tachyum公司官网上仍留有关于Prodigy处理器“在性能在优于Xeon的前提下,耗电仅为Xeon的十分之一”、“每MIPS (每秒百万条指令)只有Xeon三分之一的售价”、“数据中心年度总体建立成本降低4倍”之类的描述。


Tachyum在推出性能更强的192核心的Prodigy 2 处理器的同时,还推出了基于其Prodigy 2通用处理器和液体/空气混合冷却的百亿亿次级(E级)人工智能超级计算机的设计。

该设计将在60MW的功率预算和6,000平方英尺的占地面积中提供20 ExaFlops的FP64矢量运算性能。

已获得欧盟2640万欧元支持

值得一提是,Tachyum虽然是一家斯洛伐克芯片设计公司,但实际上其是于2016年由多位资深半导体大咖在美国硅谷成立的,只不过,Tachyum在获得斯洛伐克政府的1700万美元投资之后,就将总部设在了斯洛伐克。

Tachyum公司CEO Radoslav Danilak曾是SSD主控厂商SandForce(2011年被LSI收购)和Skyera(2014年被西部数据收购)的创始人,此外还曾担任过NVIDIA的芯片组和GPU架构师、Nishan Systems和Toshiba的CPU架构师,拥有25年的半导体行业经验;

公司联合创始人兼首席架构师Rodney Mullendore 曾是SandForce的首席硬件架构师、Nishan Systems的联合创始人,拥有30多年半导体行业从业经验。


得益于斯洛伐克芯片设计公司的身份,在今年6月,包括Tachyum在内的来自欧盟的56家公司,获得了欧盟81亿欧元的资金支持,作为此前宣布的欧洲共同利益微电子和通信技术重要项目 (IPCEI ME/CT) 的一部分。

其中,Tachyum获得了 2640 万欧元的支持,以加速Prodigy 2 通用处理器的交付。

查看评论
created by ceallan