后摩尔时代的关键词:GPU与Chiplet
AI芯片领域当之无愧的领导者英伟达连续两个季度强劲无比的业绩以及极度乐观的业绩预期,很大程度上表明今年第二季度是全球AI技术全面发展与扩张的开端阶段,而不是围绕科技股的泡沫炒作热潮。更重要的是英伟达以强劲的业绩向世界宣布:全球正式踏进AI时代,以及“算力为王”趋势所主导的全新技术篇章拉开帷幕。
随着近期AI技术突破,以及AI与应用融合趋于完善,全球各企业竞相布局以人工智能为代表的先进技术,帮助企业实现赋能新业务,以及优化决策流程和经营效率,从而催生出对人工智能更多元的定制化需求。IDC最新数据显示,2022年全球人工智能IT总投资规模为1288亿美元,预计2027年增至4236亿美元,五年复合增长率(CAGR)约为26.9%。
随着全球迈入AI时代以及万物互联进程加速,意味着全球算力需求迎来爆炸式增长, 尤其是基于AI训练与推理的各项AI细分任务涉及大量的矩阵运算、神经网络的前向和反向传播等对硬件性能要求极高的计算密集型高强度操作。然而,这些难题远非享受摩尔定律红利多年的CPU所能够解决。哪怕大量CPU也无法解决这一问题,毕竟 CPU设计初衷是在多种常规任务之间进行通用型计算,而不是处理天量级别的并行化计算模式以及高计算密度的矩阵运算。
更重要的是,随着全球芯片领域的创新与发展步入“后摩尔时代”(Post-Moore Era),作为曾推动人类社会发展主力军的CPU已经无法实现像22nm-10nm那样在不到5年间实现“阔nm”级别的快速突破,后续nm级别突破面临量子隧穿等重重阻碍,这也使得CPU性能升级和优化层面面临极大限制。
因此,拥有大量计算核心、能够同时执行多个高密集型AI任务,并且极度擅长处理并行计算的GPU近年来成为芯片领域的最核心硬件。GPU在AI训练/推理等高性能计算领域有着其他类型芯片难以企及的巨大优势,这对于那些极其复杂的AI任务非常重要,比如图像识别、自然语言处理和大量矩阵运算等。现代GPU架构更是经过AI针对性优化,适用于深度学习等AI任务。例如,英伟达Tensor Cores 可以加速矩阵乘法和卷积计算等非常关键的高强度操作,从而提高计算效能。
AI时代越来越庞大的算力需求必然使得终端对于芯片性能和处理效率要求越来越高,这就要求晶圆制造商们不断缩减栅长—人们所熟知的22nm-10nm跨越指的是栅长越来越短。
然而,随着摩尔定律逼近极限,5nm以下制程突破面临重重阻碍,“Chiplet”先进封装技术正是在这样的背景下横空出世。在Chiplet思路下, 芯片被分割成较小的功能块或核心,然后将这些“ chiplet 芯片粒”以先进封装技术集成在一起以构建性能更强、更复杂化的芯片系统。这种思路可以提高设计和封装灵活性,使不同类型的芯片块可以分别进行优化和制造,然后再通过先进封装技术集成在一起,以实现更高的性能和效率。
AI最核心基建——GPU
算力需求激增,GPU凭借其强大的并行计算能力,在这个算力需求爆炸的全新篇章一跃成为整个芯片领域的C位。
以ChatGPT为代表的生成式AI,以及支撑其运作的GPT-4大语言模型横空出世以来,全球几乎所有大型科技公司均参与这波布局AI的热潮,其中包括微软、谷歌、亚马逊、甲骨文以及来自中国的百度、腾讯、阿里巴巴等等科技巨头。GPT-4等大语言模型的开发背后基于“数据轰炸般”的AI训练和推理,而这一切都离不开最核心的基础设施——AI加速芯片,英伟达A100/H100 GPU则是AI训练和推理领域目前的首选硬件方案。
GPU强势崛起,体现出在AI热潮下,GPU和享受摩尔定律红利多年的通用型处理器(CPU)之间的地位彻底反转。从上世纪PC步入千家万户开始,CPU一直是摩尔定律最大受益者兼芯片制造技术领导者,其辉煌从PC时代延续到了云计算CPU时代,同时也推动了PC、智能手机芯片等领域的技术发展。然而自ChatGPT问世以来,随着AI对于全球高科技行业和技术发展的影响力度越来越大,专注于单线程性能与通用型计算的CPU仍是芯片领域不可或缺的一环,但其在芯片领域的地位和重要程度已远不及GPU。
从理论层面来看,摩尔定律所预言的性能指数级增长趋势近几年来并没有消失,而是从CPU转到了基于大量核心的GPU。近年来GPU性能仍在遵循性能指数增长规律,大约2.2年性能就会翻倍。相比之下,英特尔CPU GFLOPs仍呈增长趋势,但是与GPU GFLOPs相比似乎成了一条直线。
近年来,GPU能够延续指数级增长,主要因在人工智能(AI)和深度学习方面,通常需要大规模的并行计算,其中深度学习模型的训练和推理更是涉及大量矩阵操作,这是GPU强项,CPU可谓没有抗衡之力。GPU的设计在于支持大量的计算核心,这使得它们能够同时处理多个任务,从而在并行计算方面表现极其出色。相比之下,通用型CPU设计更注重单个任务的处理性能,这在处理并行任务时受到的限制非常大。
此外,现代GPU架构针对并行计算进行了优化,如英伟达NVIDIA CUDA架构和AMD的RDNA架构。这些优化使GPU能够更高效地执行矩阵计算和卷积计算等与AI相关的任务。
目前全球性能最佳且最普及的AI服务器系统使用多达8个英伟达GPU和1个AMD或英特尔CPU。英伟达目前在人工智能GPU市场占据绝对的主导地位。“因此,CPU数量将大幅度减少,而不是数以百万计的CPU,但它们将与数以百万计的GPU相连。”黄仁勋表示。
英伟达CEO黄仁勋多次强调,为了充分发挥人工智能的潜力,客户越来越多地转向加速计算GPU,比如英伟达旗下的GPU产品。“引爆点(flashpoint)是生成式人工智能。”英伟达CEO黄仁勋曾表示。“我们知道CPU的算力扩展速度已经放缓,我们还知道加速计算是前进的道路,然后需要更高算力的杀手级应用程序出现了。”
黄仁勋强调,全球向人工智能的转变现在才刚刚开始。他认为,通过将特定任务分解成更小的部分并且进行并行处理来加速特定任务的加速计算正在占据主导地位。他在英伟达8月业绩会议中表示:“最重要的主题在于,全球计算机数据中心正在向一种新的模式过渡,从通用计算转向GPU加速主导的计算模式。”这位英伟达联合创始人认为,全球价值一万亿美元的数据中心基础设施必须做出这种改变。
从市场规模预期来看,知名市场研究机构Mordor Intelligence最新研究显示,预计GPU市场规模(涵盖PC、服务器、高性能计算、自动驾驶等应用端GPU)预计将从2023年的418.2亿美元大幅扩张至2028年的1720.8亿美元,预测期内(2023-2028年)复合增速(CAGR)高达32.70%。Mordor Intelligence表示,GPU硬件不仅用于渲染图像、动画和电子游戏,还用于一般性的计算目的,几乎部署在全球所有计算型设备中。个人电脑、笔记本电脑和新兴应用(例如 AR/VR、高性能计算、人工智能、机器学习、区块链、加密货币挖掘、自动驾驶和高精度导航(车辆、机器人)的积极部署趋势,尤其是人工智能领域,未来将极大力度推动GPU需求。
相比之下,Mordor Intelligence预测数据显示,涵盖众多应用端的CPU处理器2023-2028年复合增速仅仅为5.73%。CPU市场规模扩张同样是蹭到了AI热度,该机构表示,基于云计算平台的软件和数据中心日益采用服务器CPU,以及AI带来的辅助算力需求为主要推动因素。研究机构Acumen Research and Consulting则表示,预计到2030年CPU市场规模将达到1638 亿美元,2022年至2030年复合年增长率仅仅为4.5% 。
摩尔定律逼近极限,Chiplet先进封装来“救场”
在我们所处的“后摩尔时代”(Post-Moore Era),芯片先进制程突破面临极大难度(如量子隧穿效应),加之人类社会步入AI时代以及万物互联趋势愈发明显,多种任务带来的算力需求可能暴增,比如深度学习任务,以及机器学习、推理、AI驱动的图像渲染、识别等。每种任务对硬件的性能要求都非常高,这意味着像PC那样单独集成的CPU或GPU已经无法满足算力需求。
因此,Chiplet先进封装技术应运而生,该技术允许将不同的“芯片处理单元”,即将不同的“chiplet芯粒”集成在一起,满足多样性的计算需求,从而更好地优化性能。此外,由于AI应用的多样性,往往需要针对特定任务进行硬件优化。不同的处理单元芯片可以专门用于特定类型的计算,如图像处理、语音识别、自然语言处理等,基于Chiplet思路的模块化设计使得能够针对每种任务选择最佳的处理单元。
基于Chiplet先进封装技术,能够集成更多的GPU或者其他类型芯片来满足越来越大规模的算力需求。许多AI任务涉及大规模并行计算,如神经网络系统训练和推理。GPU等处理器在并行计算方面表现优异,而Chiplet封装技术可以使不同的GPU模块,或者CPU、FPGA、ASIC芯片等在同一个芯片系统中协同工作,以提供更大规模的并行计算能力。
英伟达所依赖的台积电CoWoS封装技术正是基于Chiplet思路的先进封装技术。从H100加速系统的拆解图来看,H100利用台积电CoWoS封装技术集成了SK海力士HBM高性能存储。 H100 GPU 芯片系统将台积电4nm工艺和Chiplet封装技术融合。英伟达通过 Chiplet 技术将HBM3子系统集成到芯片系统,提供高达3TB/s超高显存带宽,是上一代产品带宽的近两倍。同时借台积电4nm制程,无论是性能还是数据传输和存储容量,相较于上一代A100 GPU 芯片都有大幅度提升。
Chiplet封装技术似乎已经成为芯片制造商们的新战场,英特尔、三星电子和台积电纷纷斥巨资投入这一技术板块。从芯片产业链的角度来看,随着Chiplet封装技术越来越普及,将给整个产业链带来一次革新,尤其是芯片制造设备商将开拓全新的业务方向,为Chiplet封装提供创新性的制造商支撑。比如,台积电等芯片制造商的上游设备商——全球芯片设备巨头应用材料近日公布了有关晶圆Hybrid Bonding、硅通孔(Through Silicon Via)的两大新技术,有助于小芯片2.5D、3D Chiplet封装工艺的提升,新的解决方案扩展了应用材料异构集成技术(HI)范围。
目前,英特尔正在马来西亚槟城兴建最新的封装厂,强化2.5D/3D封装布局。这将是继英特尔新墨西哥州及奥勒冈工厂之后,首座在美国之外采用英特尔Foveros先进封装架构的3D封装厂。英特尔表示,其规划到2025年3D Foveros封装的产能将达到当前水平的四倍。通过多年研究探索,英特尔目前压注的主要是2.5D EMIB、3D Foveros等多种先进封装,力图通过2.5D、3D和埋入式等HI技术形式实现互连带宽倍增与功耗减半的目标。
有媒体报道称,三星电子第四代HBM以及封装服务已经通过AMD测试。AMD的Instinct MI300系列AI芯片系统计划采用三星HBM3及chiplet封装服务,该芯片将集成中央处理器(CPU)、图形处理器(GPU)及HBM3,预计今年第四季发布。为了争夺未来chiplet封装市场份额,三星正在开发更先进的 I-cube 和 X-cube 封装技术。三星电子近日更是宣布,将在2025年推出全球首款使用GAA制程的3D先进封装,提供客户从代工生产到先进封装的配套完整解决方案。目前,芯片代工行业尚未尝试结合GAA制程与3D先进封装,两种技术的复杂性非常高。
台积电当前凭借其领先业界的先进封装技术吃下大量的高端芯片封装订单,并且先进封装产能已跟不上需求,英伟达H100无法满足需求正是受限于CoWoS先进封装产能。研究机构TrendForce预计,下半年CoWoS封装产能仍然较紧迫,强劲需求将延续至2024年。
英伟达和AMD的旗舰产品都离不开台积电制造以及先进封装技术的支持。台积电正在研究其新的 Chip-On-Wafer-On-Substrate-L (CoWoS-L) 封装技术,该技术将使其能够构建更大的超级载体中介层。针对大约2025年前后的需求,台积电下一代 CoWoS 技术将使中介层达到台积电最大标线片(reticle)的六倍,高于其当前中介层的3.3倍。有业内人士表示,这种技术级别的系统级封装 (SiP) 旨在供应对性能要求极高的数据中心和 HPC 芯片。
知名研究机构YOLE Group最新研究报告显示,chiplet先进封装正变得越来越重要,预2022年至2028年间,先进封装市场复合年增长率将达到10.6%,至786亿美元超越传统封装市场。相比之下,随着chiplet先进封装愈发普及,预计 2022 年至 2028 年传统封测市场的复合增速放缓至仅仅 3.2%,期末市场价值约为575亿美元,预计将全面落后于先进封装规模。