英特尔Xe2 GPU正式发布：性能提升 50% 包含全新光线追踪内核

在 ITT 2024 大会上，英特尔粉碎了所有关于取消或推迟 GPU 和 Arc 阵容的传言。汤姆-彼得森（Tom Petersen）围绕下一代 Xe2 架构做了精彩的演讲。从细节入手，英特尔将一切化繁为简，不再使用 LP、LPG、HP 和 HPG 命名方案，而是简单地将其下一代产品线称为 Xe2。在内部，这些芯片仍将采用这些代号，但不会再用于客户端。

英特尔 Xe2 正式发布，并将应用于 Lunar Lake CPU 和代号为"Battlemage"的下一代 Arc 独立显卡阵容。

英特尔 Xe2 的部分目标是提高利用率、改善工作分配和减少软件开销。Xe2 是一项从头开始的设计，修复了 Xe"Alchemist"GPU 存在的几个主要问题。一开始，英特尔就用一张 IP 性能效率图向观众展示了高达 12.5 倍的显著收益，让人惊叹不已。我们将深入介绍 Xe2 是什么，以及英特尔是如何实现这些收益的。

英特尔表示，Xe2 架构与 Xe 架构一样，具有高度的可扩展性，这将促使其集成到 Lunar Lake 等低功耗移动 SoC 中，并集成到稍后推出的具有独立选项的高端 Arc 显卡中。

第二代 Xe 内核或 Xe2 配备了多种计算资源，这些资源被重新划分为本地 SIMD16 引擎，以提高效率。

Xe2 核心功能

8 个 512 位矢量引擎

8 个 2048 位 XMX 引擎

支持 64b 原子运算

192KB 共享 L1$/SLM

矢量引擎也已更新，其中包括：

SIMD16 本地 ALU -支持 SIMD16 和 SIMD32 操作

Xe 矩阵扩展（支持 INT2、INT4、INT8、FP16、BF16）

扩展数学和 FP64 -常数：正弦、余弦、对数、指数

3 向共同发行 -FP + INT/EM + XMX

Alchemist"Xe"GPU 上也有 Xe 矩阵引擎或 XMX 单元，但现在的变化是，它们支持更多数据类型，运行速度更快，FP16 额定频率为 2048 OPS/时钟，INT8 额定频率为 4096 OPS/时钟。

让我们来看看这些新引擎是如何在 Xe2 渲染片段（Xe2 GPU 的基本模块）中堆叠的。这些渲染片可根据需要进行堆叠和扩展，并经过优化，以减少延迟、消除停滞并改善硬件/软件握手。这些渲染片连接到命令前端，该命令前端本机支持间接执行。

渲染片还包括一个新的几何引擎，具有 3 倍的顶点获取吞吐量和 3 倍的网格着色性能（具有顶点重用功能）；新的 L1$/SLM 缓存，用于顺序外采样（具有压缩纹理）；2 倍的无过滤采样吞吐量和可编程偏移；一个新的 HiZ 单元，缓存增加了 50%，并支持对小型基元进行早期 HiZ 剔除。最后，还有两个新的像素后端（Pixel Backends），可提供两倍的混合吞吐量，像素颜色缓存增加了 33%，并可将目标预取渲染至 L2$。

Xe2 的最新光线跟踪单元在 Xe1 的基础上进行了改进。Xe2 内核的一个主要部分是 RTU（光线跟踪单元），它具有 3 条遍历管道、18 个方框交叉点（每个方框交叉点 6 个，每个 RTU 3 个方框）和 2 个三角形交叉点。

以上就是英特尔 Xe2 GPU 架构的基本概述：

第 2 代 Xe2 内核

增强型矢量引擎

深度缓存

新型 XMX 发动机

性能和效率 - 优化前端

本机硬件支持 exectue 间接命令

更大的光线跟踪装置

总体而言，英特尔的 Xe2 GPU 架构旨在与游戏更加兼容，并实现更高的利用率。新的执行间接块被游戏用来加速绘制调用，由于它被虚幻引擎等引擎大量使用，因此获得 12.5 倍的提升对游戏玩家来说是个好兆头。

第一款采用 Xe2 GPU 的产品是集成配置的 Lunar Lake。Lunar Lake 中的多个区块都与 GPU 有关，如媒体引擎和显示引擎。

在谈这些之前，我们先来谈谈 Lunar Lake 的 Xe2 配置：

8 个 Xe2 内核

64 个矢量引擎

2 几何管道

8 个采样器

4 个像素后端

8 个光线追踪单元

8 MB L2$

Lunar Lake Xe2 GPU 有 8 个 Xe2 内核，每个 Xe2 内核有 8 个 XMX 和 8 个矢量单元、一个负载/存储单元、一个线程排序单元和一个专用的 L1/L$ 缓存。这 4 个 Xe2 内核中的每一个都能生成一个渲染片。

那么，与 Meteor Lake 的 Xe GPU 相比，这一切的性能表现如何呢？英特尔表示，Xe2 GPU 在 ISO 下的性能提高了 50%，在性能不变的情况下，功耗大幅降低。

XMX 块也是一个重要部分，它涌入了 67 个峰值 INT8 TOPS，为 Lunar Lake CPU 的整体 AI 能力锦上添花。该芯片总共提供 120 个平台 TOPS，其中 48 个 TOPS 来自 NPU4，5 个 TOPS 来自 CPU 本身。

月球湖的 Xe 显示引擎

现在，我们从 GPU 转向 Lunar Lake CPU 本身的其他模块，首先是显示引擎。显示引擎配备 3 个显示管道，最高支持 8K60 HDR，最高支持 3x 4K60 HDR，最高支持 1080p360 或 1440p360。显示引擎支持 HDMI 2.1、DisplayPort 2.1 和新的 eDP 1.5 功能。

显示引擎的前端包括解码/解密和流缓冲区。在像素处理流水线方面，每个流水线有 6 个平面，支持色彩转换和合成的硬件，同时具有灵活性和高能效。

此外，还有一个额外的低功耗优化流水线，带有面板重放功能（空闲帧期间的功率门控）和一个带有 LACE（本地自适应对比度增强）功能的全新亮度传感器。在压缩和编码方面，显示流压缩引擎支持 31 种视觉无损压缩和传输编码（HDMI 和 DisplayPort 协议的流编码）。路由器和端口包括流组装和端口路由，最多支持 4 个端口，增加了灵活性。

回到带有面板重放功能的 eDP（eDisplayPort）1.5，它被称为面板自刷新的进化版，具有早期传输和自适应同步支持的选择性更新。新的显示功能可减少抖动，改善播放效果，同时提供更高的能效。

用于 Lunar Lake 的 Xe 媒体引擎--支持 VVC、侧缓存和更好的编码

Lunar Lake SOC 与 Xe2 GPU 连接的最后一个区块是媒体引擎，它现在拥有自己专用的 8 MB 共享侧缓存。芯片的其他部分可以使用这个新缓存，但没有必要，因为其他内核本身就有专用缓存。

这种侧缓存可为 Lunar Lake 节省大量带宽，因为跨媒体工作负载的系统内存流量减少了。这也大大降低了编码工作负载的功耗。

媒体引擎支持最高达 8k60 10 位 HDR 解码、高达 8k60 10 位 HDR 编码、AVC、VP9、H.265 HEVC、AV1 和全新的 VVC 引擎。VVC 引擎大大降低了比特率，同时提供与 AV1 相同的质量（文件大小最多减少 10%）。它还支持自适应分辨率流和屏幕内容编码。

最后，我们的 Windows GPU 软件栈已经为 Xe2 GPU 做好了准备。英特尔表示，它花了大量时间调整 Alchemist"Xe"GPU 的 API 级性能，尤其是 DX9，但所有这些软件工作都将转移到 Xe2，并支持所有最新的 API 和框架及其运行时。

Xe2 是一种全新的图形架构，它为 Lunar Lake 等集成解决方案和即将推出的 Arc Battlemage 系列的独立选项带来了巨大的性能提升和最新的功能集。公司将在今年晚些时候分享更多有关 Battlemage 独立产品的信息。