GPU国产替代逆流而上 盘点九个值得关注的产品

摘要:

美国GPU禁令引发的风云之变让国产GPU被推到了聚光灯下。“数字经济的崛起与繁荣,离不开算力的强大支撑,计算芯片已然成为全球科技竞争的焦点所在。”中国工程院院士倪光南曾说。伴随国内政策、资本、人才以及应用的红利,一大批国内GPU企业已然崭露头角。

但GPU作为复杂的高端芯片,不止要面临国外巨头的高壁垒,还要在硬件、生态、应用层面做大量的研发和优化,国产化之路注定如西西弗斯推巨石一般的艰苦卓绝。

集微网本文将盘点九款最值得关注的国产GPU产品,一起来看看国产GPU发展水平如何。

1、凌久微,GP201

凌久微电子今年年中流片成功的产品GP201是一款采用统一渲染架构的自主高性能GPU,实现亿门级超大规模集成电路设计,可满足显控、科学计算及人工智能等应用需求。据悉,凌久微电子主要从事GPU/SOC芯片产品设计研发、配套软件生态构建等,其自研的图形处理器(GPU)已经广泛应用于商用计算机、国家信息安全和高可靠性电子设备等领域。

RPP-R8芯片的技术指标主要包括:

主频1GHz,单精度浮点1TFlops,采用PCIE GEN3 x16接口,最大支持32GB DDR4/LPDDR4显存,支持4路4K高清显示,支持DVI/HDMI/VGA/DP/eDP接口,支持OpenGL4.0、OpenGLES3.2、OpenCL3.0,支持H.264、H.265、MPEG2/MPEG4、VC-1、VP8等格式解码,整体功耗小于30W。

2、壁仞科技,BR100

今年9月,壁仞科技首次展出了BR100系列通用GPU芯片,算力创下全球纪录。壁仞科技首款通用GPU芯片BR100,基于壁仞科技原创芯片架构研发,采用的是7nm制程工艺,可容纳770亿颗晶体管,16位浮点算力达到1000T以上、8位定点算力达到2000T以上,单芯片峰值算力达到PFLOPS级别,创下全球GPU芯片算力纪录。BR100芯片在国内率先采用Chiplet技术,新一代主机接口PCIe 5.0,支持CXL互连协议,而BR100芯片也让中国的通用GPU芯片迈入“每秒千万亿次计算”新时代,最为重要的是,这是第一次全球通用GPU算力纪录由中国企业制造。同时展示的壁砺100 OAM模组,搭载的正是BR100芯片。

3、沐曦,7nm GPU已流片

沐曦(MetaX)的国产高性能AI推理GPU芯片设计研发。沐曦联合创始人、CTO兼首席软件架构师杨建博士日前接受了媒体采访,表示公司7nm GPU已经流片,不过支持游戏功能的满血GPU还要等到2025年。据悉,该产品主要用于AI推理场景,可在人工智能、自动驾驶、工业和制造自动化、智慧城市、自然语言处理、边缘计算等领域应用,这一颗芯片预计很快量产。沐曦第二款用于科学计算、数据中心弹性计算、AI训练等的旗舰GPU芯片也进入研发收尾阶段,计划于2024年全面量产。

据悉,沐曦创始人陈维良曾任AMD GPU设计高级总监、AMD全球GPU SOC设计总负责人、AMD全球通用GPUMI产品线(高性能计算、云计算)设计总负责人。公司GPU设计研发团队参与过AMD从图像到高性能计算应用GPU的架构设计和量产。

4、芯动力,RPP-R8

芯动力也将持续专注于国产化GP-GPU芯片的设计与开发,致力于将基于自主创新RPP架构的芯片产品广泛应用于各行业并行计算领域的需求场景中。目前以RPP技术研发的第一代RPP-R8芯片已经成功流片,基于全新自研架构,RPP-R8是一款为并行计算设计的高端通用异构芯片。RPP-R8芯片专注于并行计算领域。用基于CUDA的高级语言进行应用代码编程,通过自有的指令集和开发工具进行深度优化性能,在高性能计算领域内RPP-R8可以得到最广泛使用的编程语言的支持。与GP-GPU相比,RPP-R8具有更高的计算密度。利用架构的优越性,可以达到更高的计算能力,从而降低服务器的成本,达到更低的功耗。非常适合于高密度数据量的计算应用场景。

RPP-R8芯片的技术指标主要包括:

支持FP16/FP32/INT8等精度算力,算力达到960TOPS@INT8,30TFLOPs@FP32,480TFLOPs@FP16;

支持PCIe Gen4,PCIe 带宽双向 64GB/s;

芯片面积600mm2,300W,RPP核心数20个,计算单元数量640个,核心频率 1.5GHz。

支持主流深度学习网络框架和主流深度神经网络模型,支持任何英伟达支持的深度学习网络模型,包含 CNN,Transformer 等;剪枝、量化后模型压缩比与国际先进水平相当,准确率下降 1%以内,支持 64 路数视频解码。编程语言:CUDA 语言兼容,推理平台:Tensor RT 兼容;机器视觉算法:支持Open CV。

值得一提的是,这款产品已经可以对标英伟达主流边缘服务器JetsonXavier芯片产品。

5、智绘微,IDM9系列

智绘微电子IDM9系列产品均可支持OpenGL、OpenGL ES、EGL、Vulkan 等图形标准和OpenCL计算标准。

公司首款GPU芯片IDM919像素填充率达到8GP/s,纹理填充率达到16GT/s,单浮点运算达到 256GFLOPS,第二款产品IDM929在微内核架构的优势下,像素填充率性能提升2倍,纹理填充率性能提升是4倍,单浮点运算性能提升8倍。据悉,IDM919采用14nm工艺,支持1080P高清显示,支持1路HDMI、VGA或DVI接口,全面支持飞腾、龙芯CPU、麒麟以及统信等国产操作系统,广泛应用于桌面办公、工业控制系统、显示控制系统、地理信息系统、高性能计算等领域。

此外,智绘微电子IDM9系列第二款产品流片在即,计划于2023年面世。第二款产品采用14nm工艺,支持4K超高清显示,支持4路独立显示输出,支持HDMI、VGA和DVI接口,支持H264、MPEG2、MPEG4、VC-1、DivX和VP6等格式硬件解码,可以适配X86、国产基于ARM架构飞腾和基于MIPS架构龙芯CPU,同时全面支持麒麟、统信等国产操作系统,广泛应用于桌面办公、图形工作站、工业控制系统、指挥控制系统、显示控制系统、地理信息系统及高性能计算等领域。总体性能是第一款产品的8倍之多。

6、摩尔线程,GPU芯片“春晓”

摩尔线程正式发布第二颗多功能GPU芯片“春晓”,集成220亿个晶体管,内置MUSA架构通用计算核心以及张量计算核心,可以支持FP32、FP16和INT8等计算精度。相较于之前发布的“苏堤”芯片,“春晓”内置的四大计算引擎全面升级,带来了显著的性能提升。春晓GPU将致力于满足高端游戏玩家、以及更高图形和计算能力的需求,以全面覆盖高中低端应用。

“春晓”的产品亮点主要包括:

图形渲染能力方面平均提升3倍;

编码能力提升4倍,解码能力提升2倍;

AI计算加速平均提升4倍,物理仿真计算性能提升2.5倍。同时,引入了新技术支持窄带高清,节约带宽30%以上。

7、天数智芯,天垓100

天数智芯的天垓100 采用7nm制程工艺和2.5D CoWoS晶圆封装技术,集成240亿晶体管,支持多精度数据类型标准或混合训练,提供片间互联扩展,AI算力密度与能效比业界领先。当前,天垓100已支撑近百个客户在人工智能领域进行超过两百个不同种类模型训练,ResNet50、SSD、BERT等骨干网络模型的性能比肩国际市场主流产品。公司的云端训练通用GPU芯片“天垓100”与浪潮AIStation智能业务生产创新平台完成兼容性适配认证,将为自动驾驶、智慧城市、智慧金融、智慧医疗、智能制造等典型AI应用场景,,已适配X86、Arm等各种类型CPU架构,提供兼具高性能、通用性和灵活性的AI计算加速方案。

天垓100的产品亮点:

GPGPU 架构基于SIMT架构的可伸缩计算引擎,自主定义的丰富指令集支持GPU通用并行编程模型。内建FP32/FP16/BF16/INT多种数据类型指令,支持混合精度AI训练。

CoWoS HBM2 7 纳米制程、容纳240亿晶体管,2.5D CoWoS封装,提供1.2TB/s超大带宽和32GB超大容量内存,给海量数据并行处理引擎提供充足的数据支持。

主流生态兼容,支持主流的深度学习开发框架,兼容主流GPU的编程模式,有效对接现有软件生态,易于扩展支持新的算法与应用领域,帮助用户轻松实现无痛迁移。

8、象帝先,天钧一号

今年9月,象帝先发布拥有完全自主知识产权的国产GPU——天钧一号。据了解,这款GPU的综合性能已达到国际先进、国内领先水平,尤其是极致的图形渲染能力大幅领先国内同类产品,有效填补国内市场空白。近日,天钧一号GPU与飞桨完成III级兼容性测试。测试结果显示,双方兼容性表现良好,整体运行稳定。

天钧一号的技术指标主要包括:

采用 12 nm工艺,包含最多 2048 个高效 Compute Core 阵列,可提供高达 4T FLOPS 的 FP32 算力、16 TOPS 的 AI 算力和超过 128G Pixels/s 的像素填充率,高达 16GB 显存和 256GB/s 带宽;

产品支持国密系列算法和 GPU 虚拟化,筑牢硬件安全基石;

支持OpenGL、OpenGLES、OpenCL、Vulkan、DirectX等主流API,支持PCIE 4.0x16高速接口;

不仅支持H264、H265、MEPG2/4、AV1等国际视频编解码标准,还率先支持我国自主的AVS/AVS+/AVS2视频编解码标准;

同时还支持HDMI、DP等多种高清接口及多屏多图层4K超高清显示,为数字办公、视频渲染、CAD、CAE、GIS、3D游戏、AR/VR、智能制造、证券金融、AI训练推理等场景提供了高性能的产品选项。

在GFXBench 5.0的MANHATTAN 3.0测试中,基于盘古架构的天钧一号GPU在测试成绩上已经超越1660Ti、RX590、RX580一众国外GPU产品。

9、砺算科技,G100

砺算科技的自研架构支持扩展到16384个计算核心,将有与英伟达Ada Lovelace系列的旗舰产品RTX 4090竞争的机会。砺算科技的第一代高性能GPU产品G100采用6nm工艺生产,性能对标英伟达在国内销量最大、占比达90%的主流产品(10-20TFLOPS)。具体看来,砺算科技的自研架构支持扩展到16384个盘算焦点,而英伟达今年9月GTC官宣新一代RTX 4090,也是内置了16384个CUDA Cores。这也意味着,未来砺算科技的产物将有与英伟达AdaLovelace系列的旗舰产物RTX 4090竞争的时机。

G100的产品亮点主要包括:差异于购置第三方IP,砺算第一代高性能GPU产物,不仅100%支持微软的DirectX尺度,能够没有任何障碍地应用到PC上、笼罩量级最大的市场,也由于完整手艺团队以及自研架构带来的高性能(笼罩海内95%市场)、定制GPU的独家能力,具备了现实的竞争优势和耐久的生长潜力。

结语

国内GPU发展或许并不会因A800的出现而变慢,因为FDPR那把大剑始终悬在头顶,还是需要未雨绸缪的。业内人士对集微网提到,美国层出不穷的禁令或断供举措主要是为了阻挡中国的技术发展速度,但A800的推出也不会延缓国产GPU的替代之路,因为如果停下来就会落后。

集微咨询认为,国产大算力产品的发展与英伟达是否推出替代产品关系不太大。面对禁令的影响,国内客户即便短期会用A800来补位,但长远计划来看,也必须要将国产替代提上日程,对于国产GPU的大门始终是敞开的。

(校对/张杰)

查看评论
created by ceallan