10年前,芯片巨头的技术人员们怎么看HBM?

摘要:

因为AI的推动,英伟达和HBM在近年来人尽皆知。但可能很少人知道,AMD是世界上第一个推出HBM GPU的芯片公司。最近,我们看到了一篇AMD技术人员在2015年的采访,我们来看看,这家芯片巨头当年是怎么看HBM的。再次强调一下,这是一篇2015年的文章,重发的原因是希望大家以此,看一下行业可能是怎么看HBM的。

以下为文章原文:

虽然当时没有引起太多关注,但 2011 年,AMD 和内存制造商 Hynix(现为 SK Hynix)公开宣布计划合作开发和部署下一代内存标准:高带宽内存 (HBM)。HBM 本质上是 GDDR 的继任者,它将在内存工作方面实现一些非常重大的变化,以进一步提高内存带宽并降低内存功耗。

在过去十年中,AMD(以及图形处理领域的前身 ATI)一直走在图形处理领域采用新内存技术的前沿,率先部署了基于最新 2 种图形 DDR 标准(GDDR4 和 GDDR5)的产品。因此,AMD 和 Hynix 的声明虽然当时并不是什么大事,但却是 AMD 过去行为的合理延伸,即继续为未来产品探索新内存技术。假设 AMD 和 Hynix 联盟一切顺利(这是有可能的,但不一定),几年后这两家公司将能够将该技术推向市场。


四年过去了,成功的实验已让位于产品化。本月早些时候,在 AMD 2015 财务分析师日上,该公司宣布将在本季度向零售市场发布其首款配备 HBM 的 GPU - 实际上是世界上第一款配备 HBM 的 GPU。从那时起,人们就提出了许多问题,比如 AMD 打算用 HBM 做什么,以及这对他们的产品意味着什么(这是否像看起来那么重要?),尽管 AMD 尚未准备好透露即将推出的配备 HBM 的 GPU 的细节,但该公司希望尽快推出 HBM,以便在本季度晚些时候 GPU 发布之前解释这项技术是什么以及它能为他们的产品带来什么。

到目前为止,已经有许多关于 HBM 的演示发布,包括内存制造商、负责塑造 HBM 的 JEDEC 组织、AMD 甚至 NVIDIA。因此,尽管第一批 HBM 产品尚未上市,但 HBM 的基础已被充分理解,至少在工程圈内是如此。事实上,正是 HBM 在那些技术圈内才真正被充分理解,这推动了 AMD 今天的最新披露。AMD 认为 HBM 是未来一年的一项重要竞争优势,而现有的 HBM 演示主要面向工程师、学术界和投资者,AMD 希望迈出下一步,向最终用户推广 HBM 技术。


这引出了今天文章的主题:AMD 对高带宽内存的深入披露。为了在下一代 GPU 发布之前做好准备,AMD 正在与技术和游戏媒体联系,宣传 HBM 以及它对 AMD 产品的意义。

GDDR5 达到极限的地方

要真正理解 HBM,我们必须追溯到第一个计算机内存接口,但为了方便和理智,我们将把这一课浓缩为以下内容。计算机和内存接口的历史是在宽并行接口和快速串行接口之间不断移动的循环。串行端口和并行端口、USB 2.0 和 USB 3.1 (Type-C)、SDRAM 和 RDRAM,有一个不断开发更快接口的过程,然后开发更宽的接口,并根据条件在它们之间来回切换。

到目前为止,在 PC 内存的竞争中,钟摆已经向串行接口方向倾斜。尽管已经过了 4 代 GDDR,但内存设计师仍在不断提高时钟速度以增加可用内存带宽,最终出现了 GDDR5,其每针数据速率高达 7Gbps+。GDDR5 已在高端市场陪伴我们近 7 年,比任何以前的内存技术都长,并且在此过程中比最初计划的走得更远、更快。

但在接口周期中,当谈到 GDDR5 时,串行接口的钟摆终于达到了顶点。早在 2011 年 AMD 显卡发布会上,我问当时的图形首席技术官 Eric Demers GDDR5 之后会发生什么,虽然他预计 GDDR5 会继续使用一段时间,但很明显 GDDR5 已经接近极限。高速总线带来了许多工程挑战,虽然仍有改进的空间,但问题是这样做是否值得。


GPU 社区对此的简短回答是“否”。GDDR5 类内存可以进一步发展,既可以使用现有的 GDDR5,也可以使用理论上的差分 I/O 内存(比如 USB/PCIe 总线,但用于内存),但这样做会以巨大的功耗为代价。事实上,即使是现有的 GDDR5 实现也已经消耗了相当多的电量;由于 GDDR5 复杂的时钟机制,大量的内存电量仅仅用于分配和维持 GDDR5 的高时钟速度。任何未来的 GDDR5 类技术都只会加剧这一问题,并带来新的复杂性,例如需要在内存芯片中添加更多逻辑,这是一个有点痛苦的组合,因为逻辑和密集内存很难一起制造。


目前,GDDR5 的功耗情况是这样的,据 AMD 估计,Radeon R9 290X(250W TDP)的功耗中 15-20% 用于内存。即使在该公司采用更宽、更慢、主频为 5GHz 的 512 位 GDDR5 内存总线以更好地控制功耗之后,情况仍然如此。因此,使用更快、功耗更高的内存标准只会加剧这个问题。


随着消费者(和工程师)越来越重视功耗问题,消费设备的功耗一直在下降。电池容量固定的移动设备当然是最佳例子,但即使在 PC 领域,CPU 和 GPU 的功耗也已达到峰值,之后有所下降。趋势是朝着更节能的设备发展 - 2005 年高端 GPU 的空闲功耗在 2015 年将是无法容忍的 - 这又给更快的串行内存技术带来了另一个阻碍,因为功耗会在预计整体功耗下降的同时上升,因此单个设备的工作功耗会降低。


最后,除了上述所有问题之外,还有可扩展性问题。我们将在讨论 HBM 的优势时进一步讨论这个问题,但简而言之,GDDR5 最终也会占用大量空间,尤其是当我们谈论当前高端显卡的 384 位和 512 位配置时。在一切都变得越来越小的时代,还需要进一步缩小内存,而 GDDR5 和潜在的衍生产品并不适合解决这个问题。

最终结果是,在 GPU 内存领域,钟摆开始摆回并行内存接口。GDDR5 已经发展到了一个点,再进一步发展就会越来越低效,这导致研究人员和工程师寻找更宽的下一代内存接口。这就是他们选择 HBM 的原因。

HBM:宽而慢,快而快

鉴于进一步推动 GDDR5 和类似内存技术所面临的挑战,高带宽内存技术的发展在过去十年中已转向更宽、更慢的接口。随着串行接口达到极限,并行接口成为一种越来越可行的替代方案。尽管它们也带来了自己的挑战——毕竟串行接口最近占据主导地位是有原因的——但进一步改进串行接口的挑战的增加与使并行接口更易于实现的技术的发展相吻合。因此,钟摆又摆回了并行接口和 HBM。

简而言之,HBM 将“wide & slow ”范式发挥到了极致。HBM 并非围绕 ASIC 构建高速芯片阵列,通过 256/384/512 位内存总线实现每针 7Gbps+ 的速度,而是在最基本的层面上将内存时钟速度降低到每针 1Gbps,但作为交换,内存总线变得更宽。有多宽?这取决于规范的实施和生成,但 AMD 迄今为止展示的示例涉及 4 个 HBM 设备(堆栈),每个设备都具有 1024 位宽的内存总线,组合起来形成一个巨大的 4096 位内存总线。它可能不会被调高时钟速度,但如果它有那么宽,就不需要这样做了。


当然,虽然额外的内存带宽很不错,但更有趣的部分是 HBM 如何实现这一点。虽然宽而慢的并行总线的概念在纸面上很容易理解,但实现它又是另一回事。4096 位内存总线涉及数千条迹线,远远超过 GDDR5,所有这些迹线都必须精心构建才能使 HBM 正常工作。因此,有几项基本技术正在通过 HBM 大规模(但不一定是首次)引入。

第一个也是最根本的问题是如何高效地布线 4096 位内存总线?即使是最好的表面贴装 BGA 技术也有其局限性,而Hawaii正在推动其 512 位 GDDR5 内存总线的发展。更宽的总线只会让这一过程变得更加困难,无论是在 PCB 或芯片基板上布线如此宽的总线,还是使用 BGA 将芯片连接到这些线路,都会带来问题。


解决方案的第一步是开发能够实现更高密度布线的东西,而这个东西就是硅中介层。广义上讲,中介层是一种部分制造的硅芯片,它不是开发成一个装满逻辑的完整 ASIC,而是只开发到具有金属层,以便在设备之间路由信号和电源。中介层之所以有效,是因为它利用了现代光刻工艺的一些核心优势,允许创建非常精细的路径,而这在传统的 PCB 和基板上是不可能/不切实际的。

使用硅中介层解决了 HBM 的一些基本问题,但它也提供了一些附带好处。除了解决明显的布线问题外,中介层还允许将 DRAM 放置在非常靠近 ASIC 的位置,但不必放置在 ASIC 上方(即堆叠封装),这对于 GPU 等高 TDP 设备来说是不切实际的。通过能够将 DRAM 放置在如此靠近 ASIC 的位置,它避免了长内存路径的缺点,使较短的路径更易于构建,并且在此过程中需要的功率更少。它还有利于集成,因为与 PoP 技术类似,您可以将更多设备功能放在与 ASIC 相同的封装上,从而减少需要放置在封装外并布线到 ASIC 的设备数量。

当然,中介层也有一个缺点,那就是成本。虽然 AMD 并没有详细讨论成本问题(这是一次技术深入探讨,而不是分析师会议),但中介层本质上是一个非常大的、部分开发的硅片,这意味着它的生产成本相对较高,尤其是与成本非常低的 PCB 和传统基板相比。缓解这一问题的事实是,中介层不需要经过最复杂、最昂贵的光刻阶段(实际的前端光刻),因此成本只是硅晶圆本身,以及创建金属层所需的工作,最终的中介层只有大约 100 微米厚。此外,这不需要尖端晶圆厂——旧的、完全摊销的 65nm 设备运行良好——这进一步降低了成本。最终结果是中介层的成本仍然很高,但并不像最初看起来那么糟糕。这最终就是为什么 HBM 将首先在高端显卡等高利润产品上推出,然后才有可能进入 APU 等更便宜的设备。

与此同时,从长远来看,AMD 及其供应商也将从批量生产中受益。第一批中介层是在经过改造的 65nm 光刻生产线上生产的,但是一旦批量生产规模扩大,开发仅中介层的生产线将变得经济实惠,因为它们不需要同时提供完整的光刻能力,因此运行成本更低。目前还不清楚这个截止点在哪里,但听起来它很快就会发生。

从更广泛的角度来看,在总体方案中,中介层成为整个芯片上的一个新层,位于传统基板和安装在其上面的任何 DRAM/ASIC 之间。微凸块将 DRAM 和 ASIC 连接到中介层,然后中介层将连接到基板,最后基板连接到其配套的 PCB。PCB 安装本身将在此过程中变得更容易一些,因为不再需要通过基板布线内存走线,这意味着唯一剩下的连接是数据(PCIe 总线等)和 ASIC 和 DRAM 的电源。所有复杂的布线基本上都集中在中介层上发生。


接下来,这里另一个重大技术突破是硅通孔 (TSV) 的创建。有了中介层来实现密集内存总线的布线,另一个需要解决的问题就是创建密集内存。解决方案是将多个内存芯片堆叠在一起形成单个设备/堆栈,以创建单个 1024 位堆栈,而 TSV 正是实现这一点的关键。

堆叠 DRAM 的原因非常简单:通过将 DRAM 减少到更少的分立设备,可以简化生产,更不用说节省空间了。这里的挑战是,由于 DRAM 是堆叠的,因此无法使用传统的表面贴装连接,而传统的边缘连接(如 PoP 中使用的)既不够密集,也不能很好地扩展到 HBM 所需的那种堆叠。


因此,需要一种方法来将 DRAM 连接路由到堆栈的较低层,而 TSV 解决了这个问题。常规通孔可以将两层连接在一起,而 TSV 则通过将通孔直接穿过硅器件来连接更远的层,从而扩展了这一原理。最终结果有点类似于通过微凸块将 DRAM 芯片表面贴装在一起,但具有通过层进行通信的能力。从制造的角度来看,在硅中介层和 TSV 之间,TSV 是更难掌握的技术,因为它基本上结合了 DRAM 制造的所有挑战以及将这些 DRAM 芯片堆叠在一起的挑战。

在开发出堆叠 DRAM 的方法后,HBM 堆栈的最后一个组件是位于堆栈底部的逻辑芯片。同样配备 TSV 的逻辑芯片负责实际操作其上方的 DRAM 芯片,然后处理堆栈和 ASIC 之间的 HBM 总线操作。这实际上是一个相当有趣的发展,因为最终结果是尽管 HBM 总线很简单,但增加了更多逻辑,但同时由于 TSV 和中介层,添加该逻辑比以往任何时候都更容易。

HBM 的净收益

现在我们有机会讨论 HBM 的构造方式以及构建它的技术障碍,我们终于可以谈谈 HBM 的性能和设计优势了。HBM 当然首先是进一步增加内存带宽,但堆叠 DRAM 和更低功耗的结合也开辟了一些无法通过 GDDR5 实现的额外可能性。

我们先从 HBM 的带宽能力开始。带宽量最终取决于使用的堆栈数量以及这些堆栈的时钟速度。HBM 使用 DDR 信号接口,虽然 AMD 目前尚未公布最终产品规格,但他们已经向我们提供了足够的信息来开始构建完整的图景。


AMD 使用的第一代 HBM 允许每个堆栈的时钟频率高达 500MHz,经过 DDR 信号传输后,每个引脚的速率可达 1Gbps。对于 1024 位堆栈,这意味着单个堆栈可以提供高达 128GB/秒(1024b * 1G / 8b)的内存带宽。HBM 反过来允许使用 2 到 8 个堆栈,每个堆栈承载 1GB DRAM。到目前为止,AMD 的示例图(以及 NVIDIA 的 Pascal 测试工具)都是用 4 个堆栈绘制的,在这种情况下,我们将看到 512GB/秒的内存带宽。这当然比 R9 290X 的 320GB/秒内存带宽或 NVIDIA 的 GTX titan X 的 336GB/秒要高得多,内存带宽增加了 52-60%。

更有趣的可能是 HBM 对 DRAM 能耗的影响。正如我们之前提到的,R9 290X 将其 250W 功率预算的 15-20% 用于 DRAM,或者绝对功率约为 38-50W。同时,根据 AMD 自己的估算,GDDR5 每瓦功率的带宽为 10.66GB/秒,通过该计算可达到 30W+。另一方面,HBM 每瓦提供的带宽超过 35GB/秒,每瓦能效立即提高 3 倍。

当然,AMD 随后会将部分收益重新投入到增加内存带宽中,因此,说内存功耗降低了 70% 并不是那么简单。根据我们之前对 4 堆栈配置的 512GB/秒内存带宽的估计,512GB/秒 HBM 解决方案的功耗约为 15W,而 320GB/秒 GDDR5 解决方案的功耗则为 30W+。最终结果表明,DRAM 功耗几乎减半,AMD 节省了 15-20W 的功耗。

将 DRAM 功耗降低 15-20W 的实际优势是什么?除了能够将其用于降低整体显卡功耗之外,另一个选择是将其用于提高时钟速度。由于 PowerTune 对功耗进行了严格限制,更大的 GPU 功率预算将允许 AMD 提高时钟速度和/或更频繁地以最大 GPU 时钟速度运行,从而将性能提高到目前无法确定的程度。现在需要提醒的是,更高的 GPU 时钟速度通常需要更高的电压,这反过来会导致 GPU 功耗的快速增加。因此,尽管拥有额外的功率余量确实有助于 GPU,但它可能并不像人们希望的那样有利于提高时钟速度。

与此同时,在 AMD 新产品发布和基准测试之前,额外内存带宽带来的性能提升同样不明朗。根据经验,GPU 几乎总是内存带宽瓶颈——毕竟它们是高吞吐量处理器,每秒能够进行数万亿次计算,而带宽仅为数千亿字节——因此毫无疑问,HBM 更高的内存带宽将提高性能。然而,即使在 AMD 当前的显卡上,内存带宽的增加目前也不会带来 1:1 的性能提升,未来产品也不太可能有任何不同。

更糟糕的是,任何新的 AMD 产品都将基于 GCN 1.2 或更新版本,该版本引入了AMD 最新一代的色彩压缩技术。最终结果是,在相同的工作负载下,内存带宽压力会下降,而内存带宽可用性则会上升。AMD 最终将获得大量有效内存带宽——这对于高分辨率来说非常有用——但这也使得无法预测最终的性能影响。不过,看看 AMD 如何在有效内存带宽增加 2 倍以上的情况下为图形工作负载带来什么,这仍然很有趣。

AMD 希望利用 HBM 的最后一个主要优势(这一点他们甚至没有特别提及)是 HBM 带来的更密集设计带来的新外形设计。随着大型 GDDR5 内存芯片被更窄的 HBM 堆栈取代,AMD 告诉我们,由此产生的 ASIC + RAM 设置可以小得多。

小多少?1GB GDDR5 由 2Gbit 模块组成(R9 290X 的标准模块大小),占用 672mm²,而 HBM 堆栈的 1GB DRAM 仅占用 35mm²。即使我们针对 4Gbit 模块(目前出货的显卡中使用的最大模块)重新计算,我们最终得到的仍然是 336mm²,而不是 35mm²,对于 1GB DRAM 来说,这仍然节省了 89%。最终,HBM 堆栈本身由多个 DRAM 芯片组成,因此仍然有相当多的硅片在使用,但由于堆叠,其 2D 占用空间显著减少。

根据 AMD 自己的估计,配备 HBM 的单个 GPU 封装将小于 70mm X 70mm (4900mm²),而 R9 290X 的封装则为 110mm X 90mm (9900mm²)。由于 HBM 堆栈不需要非常复杂的电源传输电路,因此可以节省更多空间,因此卡的空间节省可能非常可观。根据我们的估计,整个卡的尺寸仍然会相当大 — 所有这些 VRM 和连接器都需要放置在某个地方 — 但可以节省大量空间。AMD 打算如何使用这些节省下来的空间还有待观察,不过在此向 AMD 表示歉意,NVIDIA 已经展示了他们的 Pascal 测试平台,用于他们的夹层连接器设计,不言而喻,这样的外形尺寸开辟了一些非常有趣的可能性。

最后,售后市场爱好者可能会也可能不会享受到使用 HBM 带来的最后一个好处。由于 DRAM 和 GPU 现在位于同一封装中,AMD 将在封装上安装集成散热器 (IHS),以补偿 HBM 堆栈和 GPU 芯片之间的高度差异,保护 HBM 堆栈,并为 HBM 堆栈提供足够的冷却。高端 GPU 芯片已经裸露了一段时间,因此 IHS 为芯片带来的保护与 IHS 为 CPU 带来的保护相同。但与此同时,这意味着不再可能直接接触 GPU,因此极端超频者可能会失望而归。我们必须看看出货产品是什么样的,以及在这些情况下是否可以移除 IHS。

结束语

结束这次深入探讨后,作为第一家推出 HBM 解决方案的 GPU 制造商(事实上,AMD 预计将成为唯一一家推出 HBM1 解决方案的供应商),AMD 已制定了一些非常积极的产品目标,这要归功于 HBM 带来的收益。在我们进一步了解 AMD 即将推出的显卡之前,我认为最好不要抱有太大的期望,因为 HBM 只是 GPU 这个完整拼图中的一块。但与此同时,我们要明确一点:HBM 是 GPU 的未来内存技术,由于内存带宽大幅增加,它有潜力显著提高性能,大约明年,AMD 将是唯一一家提供这项技术的 GPU 供应商。

AMD 则希望尽可能地利用其领先优势,无论是在技术层面还是在消费者层面。在技术层面,AMD 到目前为止很少谈论性能,所以我们必须拭目以待,看看他们的新产品会带来什么。但 AMD 对其利用 HBM 尺寸优势的计划持更加开放的态度,因此我们应该期待看到一些非传统的高端 GPU 设计。同时在消费者层面,预计 HBM 将进入技术词典,成为高性能产品的最新流行语——几乎肯定会印在今天的显卡盒上,就像 GDDR5 多年来一直印在显卡盒上一样——因为 AMD 希望让每个人都知道他们的优势。


同时,从长远来看,高端 GPU 只是 AMD 预计的 HBM 更广泛应用的第一步。尽管 AMD 目前尚未承诺推出任何其他产品,但随着产量的提高和成本的下降,HBM 有望在更广泛的领域实现经济可行性,包括低端 GPU、HPC 产品(例如 FirePro S 和 AMD 即将推出的 HPC APU)、高端通信设备,当然还有 AMD 的主流消费级 APU。作为利润率较低的产品,消费级 APU 可能遥遥无期,但从长远来看,它们很可能是 HBM 最有趣的用例,因为 APU 是目前带宽最匮乏的图形产品之一。但在我们走得太远之前,让我们看看 AMD 本季度晚些时候能在其高端显卡上使用 HBM 做些什么。

查看评论
created by ceallan