芯片散热问题不断扩大与增多 可忽略功耗设计的制造商越来越少

摘要:

在处理和存储数据方面,功耗至关重要,而其中许多方面并不理想。与功耗相关的问题,尤其是热量问题,如今主导着芯片和系统设计,而且这些问题在不断扩大和增多。随着晶体管密度的提高,这些微小的数字开关产生的热量无法通过传统方式消除。尽管这个问题看似可以控制,但这产生了一连串需要整个行业共同解决的新问题,包括EDA公司、制程设备制造商、晶圆厂、封装厂、现场监测与分析服务商、材料供应商、研究团队等。


在这些活动的背后,一个持续的焦点是将更多晶体管集成到固定区域内,以及与之密切相关且不断加速的功耗泄漏战斗。FinFET在16/14纳米技术中解决了漏电门问题,但仅在两个节点之后问题再次出现。在3纳米制程中,引入了与众不同的全包围栅极场效应管(即纳米片)结构,这使得设计、计量、检验和测试变得更具挑战性和成本。在2纳米/18埃技术中,为确保向晶体管传输足够的功率并缓解布线问题,会从芯片的正面翻转到背面进行电源传输。在更高技术水平中,行业可能会再次改变晶体管结构,采用复合场效应晶体管(CFET)。在这一短时间窗口中,众多工艺和结构变化不断涌现,每个新节点都需要解决更多问题。

例如,随着高密度芯片和封装技术发展,瞬态热梯度问题日益受到关注。这些热梯度以不可预测的方式移动,有时迅速,有时缓慢,并且会随着工作负载的变化而变化。在40纳米工艺中,采用较厚的电介质、基板和更宽松的间距,这些问题仅被当作小麻烦。但在当前尖端的制程技术中,我们需要更认真地对待这些问题。

Cadence产品管理总监Melika Roshandell表示:“尽管基本漏电较之前的技术有所降低,但总体功耗却更高。所以,热量问题将更加严重,因为你在一个集成电路中集成了更多的晶体管,同时不断提高性能。你希望采用越来越高的频率,为此需要提高电压和功耗。现在的总功耗比上一代更高,所以热量问题将更严重。此外,在使用更小节点时,芯片面积也在减小。面积缩小和总功耗增加有时可能导致热问题恶化,从而使芯片无法达到


图1:运行中的3D-IC设计的热力学耦合仿真

热量正成为所有硬件工程师共同的噩梦,并引发一些难以解决和预先建模的恶性循环:

热量加速了用于保护信号的电介质薄膜(时间依赖型电介质击穿,或称TDDB)的破裂,并增加了机械应力,从而导致翘曲。

热量导致一系列问题:它加速电迁移和其他老化效应,可能使数据通路变窄。这进一步增加了电路阻力产生的热量以及驱动信号所需的能量,直至(如果可能的话)信号重新路由。

热量还会影响存储器的运行速度,降低系统整体性能。

此外,热量产生的噪声对信号完整性造成影响,而且噪声可能是瞬时的,这使得分区更加困难。

所有这些因素都可能缩短芯片的寿命,甚至影响芯片的一部分。西门子EDA的模拟和混合信号验证解决方案的首席产品经理Pradeep Thiagarajan表示:“热降解晶体管很容易导致芯片或IP损坏。幸运的是,大多数设备的自热分析可以通过对每个MOS器件进行瞬态测量来评估局部加热对设计的影响,然后加载温度差数据并评估波形影响。现在,在面临越来越高的数据传输速率要求的情况下,各个方面都需要创新。因此,更好地对所有热界面材料进行建模,就能更有可能解决这些影响,并进行适当的设计调整,避免短期或长期的硬件故障。归根结底,我们需要创新的热解决方案,同时还必须进行正确的建模。”

功耗问题丛生

许多芯片制造商刚开始应对这些问题,因为大部分芯片并未使用最先进的制程开发。但随着芯片越来越多地变成由芯片单元组成,所有内容都需要在非40nm或更高工艺平面芯片开发的条件下进行特性描述和操作。

值得注意的是,提高晶体管密度,无论是在单个芯片还是高级封装中,未必是提升性能的最有效途径。然而,它确实会提高功率密度,限制时钟频率。因此,许多显著进步并非与晶体管本身紧密相关。这些进步包括硬件-软件协同设计、更快的物理层和互连、新型绝缘和电子迁移材料、具有较高精度和较短恢复时间的预取处理、稀疏算法以及新的电源传输方案。

Arm公司高级首席CPU架构师Vincent Risson表示:“理解整个系统堆栈非常重要。当然,计算机对功率有重要贡献,但系统的其他部分也同样重要。这就是为什么我们有不同级别的缓存,而且缓存的大小也不同。我们在上一代产品中加大了缓存规模,因为拥有本地缓存能使下游电源将计算视为本地运行。随着我们扩展到3D,我们可以设想使用3D堆叠缓存,这将有助于减少数据传输并提高效率。”

关键是在设计周期的每个环节提高效率,不仅仅局限于硬件。尽管近几十年来芯片产业一直关注硬件——软件协同设计,但系统公司通过定制化微架构优先采用这种方法,同时,移动设备也力求为了竞争优势而大幅延长电池寿命。

Risson表示:“我们进行许多调整来充分提升性能,这是CPU致力于解决的一个重点问题。例如,我们持续改进所有预取引擎,以提高准确性并降低下游数据的流量。因此,我们在保持更好覆盖的同时,减少了互连上的流量。”

这仅仅是难题的一部分,我们还需要解决更多方面的问题。例如,随着时间的流逝,介电膜会逐渐损坏。这种情况会受到不同工作负载或工作条件的加速,尤其是在充满芯片片制品的封装内部。Ansys电子、半导体和光学事业部的研究员及首席技术专家Norman Chang表示:“由于我们需要处理如此众多的信号和运行在不同电压下的多边形网络,时变介电击穿(TDDB)成为一个问题。如果一个网络与另一个不同电压的信号网络相邻,那么介电材料就会感应到不同的电压场。随着时间的推移,会出现时变的介电击穿现象。这是一个新问题,我们需要找到针对它的解决办法。”

不一致性问题

热梯度也是一项挑战,特别是当它们变化不定且在不同工作负载间有较大差异时。这个问题在2.5D设计中尤为明显,可能导致变形。而预期在未来几年推出的3D-ICs中也存在同样问题。在这两种情况下,热量可能会被困住,从而产生滚雪球效应。


图2:2.5D 集成电路的热力学与力学分析结果,展示了温度梯度,包括在245°C时的翘曲情况

张表示:“在3D-IC中,功耗与温度有很大的关系。当温度升高时,漏电功耗将增加,热梯度分布成为3D-IC中多物理互动的核心。温度会影响功耗,同时也会影响电阻。当温度升高时,电阻也会增加,这也将影响介电常数。这会对信号完整性和功率完整性产生影响,同时还会影响应力。在3D-IC中混合使用数字和模拟时,模拟部分对应力更敏感。你需要知道热梯度和热点的位置,以便将模拟元件远离热点。如果你看到模拟元件的热循环,设备的老化速度会加快,你会开始看到晶体管失配,模拟电路的效率相较于数字逻辑会迅速下降。”

这仅仅只是开始。新思科技(Synopsys)的产品管理高级总监Kenneth Larsen指出,将堆叠芯片中各个元素的位置安排错误可能会产生一些意想不到的问题,例如热交叉干扰,这也可能会降低整体性能。“我们已从单片设计转向基于碎片的设计,这使得各个设备之间的距离缩小了,它们可以互相影响。当一个设备堆叠在另一个设备上时,热量如何散发出去?这是一个巨大的挑战。对于3D-ICs,第一个问题是能否构建具有结构完整性的系统。同时,你还需关注其他的机械、热和功耗问题——亟待解决的问题实在太多。”

在过去,处理热量的最简单方法是降低电压。然而,这种方式已经变得不再有效,因为在极低电压的状态下,轻微的异常现象就可能导致问题。Fraunhofer IIS自适应系统工程部门设计方法主管Roland Jancke说:“对于低功耗技术(如临界或亚临界器件)和高功耗设备来说,噪声是一个关键话题。这是一个难以理解的问题,因为在模拟过程中它通常不会出现,而是在现实世界中暴露出来。当噪声问题在现实中出现时,你需要了解并应对它。”

以交叉耦合为例,在设计阶段,其在基底中产生的噪声并不容易察觉。Jancke表示:“我们在几年前就开始使用基底模拟器来研究基底内的交叉耦合状况。当时关注的重点是单个设备及其周围的设备。然而,大家往往忽略了通过基底耦合的、距离较远的输入阶段的交叉耦合问题。”

此类问题也会导致DRAM中出现问题,特别是在比特单元密度增加时,更容易受到噪声影响。苏黎世联邦理工学院的计算机科学教授Onur Mutlu表示,“肯定存在热噪声。另外,当你访问一个单元时,由于导线切换等原因导致的电干扰会在结构中产生噪声,或者是访问晶体管。这种激活行为会产生噪声,导致可靠性问题。我们称之为单元间干扰。行锤问题是一个例子,激活一行时会干扰相邻的行。RowPress是另一个例子,你长时间保持一行打开状态,这会影响到相邻的其他行。随着我们减小每个单元的大小、缩小单元间距并提高密度,这种单元干扰现象变得越来越普遍。这可能会导致无声的数据损坏,而这可能正是现实场景中发生的情况。”

在功耗方面,总会出现一些意想不到的问题。Movellus的功耗架构师Barry Pangrle表示:“不论何种时钟频率,都希望在最低电压下运行,以便用最少的能量。尽管我们可以建立一定程度的模型,但总会遇到一些意外情况。可以对一块芯片在不同环境下调整电压和频率来测试其在不同负载下的表现。可以利用这些数据,若要更为谨慎,可以适当降低设置,留出一定的余量。但是人们不可能针对每个芯片都这样做。那么,你是否要对芯片进行分类,比如‘属于这种类别的芯片将在这个时钟和这个电压下运行。’另外,粒度细节的选择将取决于销售该芯片的厂商。”

其他问题

功耗还涉及到资金方面的问题,包括从创建复杂设计所需的资源,到数据中心耗电量的多少。晶体管密度越高,服务器架启动和降温所需的能量就越多。在各种类型的人工智能应用中,目标是最大限度地提高晶体管利用率,这反过来会消耗更多的能量,产生更多的热量,同时需要更多的冷却。

proteanTecs工程解决方案副总裁Noam Brousard表示:“这些应用需要大量电力,且需求呈指数级上升。高效的电力消耗最终将为数据中心带来显著的节省。这是最重要的。此外,我们还要关注应用对环境的影响,并希望延长电子产品的使用寿命。”


图3:功耗对芯片的影响

功耗相关的影响并不仅限于芯片本身。Cadence的Roshandell表示:“在2.5D设计中,热应力会导致翘曲,从而增加可能会破坏连接基板和PCB之间焊球的风险。一旦产生裂缝,就会出现短路,从而导致产品无法正常工作。因此,如何解决这个问题以及如何建模至关重要。必须在设计的最早阶段提前考虑到这一点并采取相应措施。”

在3D-ICs中,问题变得更加复杂。再次强调在设计周期早期发现问题的重要性,但在3D-ICs中,存在累加效应。Ansys的张表示:“与SoC相比,动态开关功率在3D-ICs中真的非常棘手。我们必须尽早考虑物理架构,因为如果你在一个3D-IC中有15个片上芯片,那么如何在这15个片上芯片之间分配功率以适应动态工作流和时间维度呢?在不同的时刻,某个片上芯片可能会有不同的工作负载,这可能会产生热点。但如果顶部晶片有局部热点,底部晶片也有局部热点,当两个局部热点在某个时间点对齐时,这个热点将变成全局热点。如果其他晶片没有切换,全局热点可能比局部热点高出10至15摄氏度。这让3D-IC电路设计师完全措手不及,因为当你对3D-IC中的一个片上芯片进行模拟时,你可能无法以现实的工作流程对整个3D-IC进行模拟。”

问题在于,存在许多相互依赖的因素,需要在某种背景下理解所有事物。是德科技设计和仿真产品组副总裁兼总经理Niels Faché表示:“你无法独立优化这些设备。你可能会关注热量方面的目标,比如最高温度、热量散发,但你需要在机械应力的背景下理解这些问题。你必须建立这些独立物理效应的模型。如果它们之间关系非常紧密,你需要以联合仿真的形式进行。举个例子,我们采用电热仿真。所以,当观察流经晶体管的电流时,它会对热量产生影响。接着,热量会影响电气特性,进而改变电气行为,你需要对这些相互作用建模。”

解决方案

对于与功耗相关的问题,没有单一、全面的解决方案,但有很多能解决部分问题的方案。

解决问题的一个方法,也许是最简单的方法,就是限制过度设计。Rambus研究员和杰出发明家Steven Woo表示:“一切都始于关注目标应用场景,以及定义解决这些场景所需的功能。试图增加各种功能来满足其他潜在市场和使用场景的需求可能很诱人,但这往往会导致芯片面积、功耗和复杂性的增加,从而影响芯片主要应用的性能。我们必须严格地审视所有功能,以极具挑战性地判断它们是否真正需要整合在芯片中。每一个新功能都会影响到PPA(功耗、性能和面积),因此始终关注目标市场和使用场景是第一步。”

这将对整体功耗产生显著影响,特别是在AI领域。Woo表示:“在AI中有许多因素需要考虑,尤其是对于边缘设备。一些选择包括芯片供电方式、散热限制、是否需要支持训练和/或推理、精度要求、芯片将被部署的环境以及支持的数字格式等。支持大量功能集意味着更大的面积和功耗,以及在功能未使用时添加禁止的复杂性。由于数据传输影响性能并消耗大量能量预算,设计师需要充分了解在开发能够最大限度地减少边缘数据传输的架构时需要移动多少数据。”

另一种方法是对设计进行实际工作负载测试。新思科技的低功耗解决方案产品管理高级总监William Ruby表示:“有些客户正在尝试让我们运行代表性的工作负载,因为我们不知道还有什么不知道的事。” 这就像是功耗覆盖。“我们认为什么样的情况是持续的最差情况?我们认为什么样的空闲负载是好的?” 但他们不知道的是,新的软件更新可能如何改变整个活动特征。希望这种变化是渐进式的,而且他们已经为此做了预算,而不是悲观地过于保守。但是如何预测固件更新会发生什么变化呢?

背面供电是另一个选择,尤其是在最先进的节点上。“在某种程度上,你会遇到收益递减的问题,因为你需要处理从顶层到底层的材料,而顶层往往是供电和接地布线,”Movellus的Pangrle表示,“如果你可以从背面实现供电,而不必穿过顶部的17个金属层,那么你就不需要经过很多层了。能够绕过整个金属堆栈并从背面接近晶体管,从而不必担心穿过所有的过孔,这就像是制造业的魔法。”

在芯片和封装内部使用传感器监测与功耗相关行为的变化是另一种方法。proteanTecs的Brousard表示:“在现实应用中,有许多因素会降低性能,因此我们必须预设电压保护带。我们知道会有噪声、过度的工作负载以及芯片的老化现象。所有这些因素迫使我们在最佳情况下应用大于VDDmin的电压。”

此外,铜线可以用于传导热量至可以散热的地方。新思科技的Larsen表示:“你可以采取简单措施,比如优化堆叠芯片中的TSV布局,也可以使用热过孔。这非常复杂,但EDA领域一直在处理指数型问题。这是我们需要解决的。但是,当你想缓解某些问题时,你需要增加一些东西,虽然可能会影响到某些你期望得到的价值,但这是需要解决的。为了可靠性,你可能会增加冗余,它可能是堆叠中的TSV或混合键合。”

结论

过去几十年来,功耗一直是头部芯片制造商的一个问题。智能手机会发出运行过热的警告,并在冷却下来之前关闭。出于同样的原因,一个服务器机架可能会将负载转移到另一个机架。但芯片越来越多地被分解成各种组件并封装在一起,随着汽车等行业开始开发5纳米及以下的芯片,功耗问题将在更多领域出现。

架构、布局布线、信号完整性、发热、可靠性、可制造性和老化都与功耗紧密相关。随着芯片行业继续以独特的方式以及不同的功能来应对独特的市场,整个行业都需要学习如何处理或解决与功耗相关的影响。在过去,只有产量最高的芯片制造商才关心功耗,而现在变得不同的是可以忽略功耗设计的制造商越来越少。

查看评论
created by ceallan