Panmnesia发布CXL协议允许AI GPU以最小的延迟利用各类内存

韩国科学技术院（KAIST）的一家初创公司Panmnesia推出了一种尖端 IP，可通过 PCIe 上的 CXL 协议为人工智能 GPU 添加外部存储器，从而打破了存储器容量的障碍，提供有效的基础设施来解决 HBM 的局限性。

目前的人工智能加速器仅限于板载内存，而制造商只能提供非常有限的 HBM。随着数据集的不断增长和对功耗的需求，业界正专注于增加更多的人工智能 GPU，而考虑到其所占用的财务和制造资源，这种方法从长远来看是不可持续的。有鉴于此，由韩国 KAIST 研究所支持的公司 Panmnesia 推出了一个 CXL IP，可以让 GPU 利用 DRAM 甚至 SSD 的内存，扩展内置的 HBM。

为了实现连接，CXL 采用了 PCIe 链接，确保在消费者中得到广泛采用。不过，这也有一个问题。传统的人工智能加速器缺乏必要的子系统，无法直接连接并利用 CXL 进行内存扩展，而且 UVM（统一虚拟内存）等解决方案的速度相当慢，这就失去了初衷。

不过，作为一种解决方案，Panmnesia 开发出了自己的符合 CXL 3.1 标准的 Root Complex 芯片，它有多个端口，通过 PCIe 总线连接 GPU 和外部内存，HDM（主机管理设备内存）解码器则充当连接的桥梁，管理内存分配和转换。

Screenshot-2024-07-03-at-9.39.14 PM.png

有趣的是，Panmnesia 决定将他们的解决方案（CXL-Opt）与三星和 Meta 开发的原型产品（他们称之为"CXL-Proto"）进行基准测试。令我们惊讶的是，CXL-Opt 的往返延迟（即数据从 GPU 传输到内存再返回所需的时间）大大降低。 CXL-Opt 的延迟时间为两位数纳秒，而 CXL-Proto 的延迟时间为 250ns。除此之外，CXL-Opt 的执行时间远远少于 UVM 解决方案，因为它的 IPC 性能速度是 UVM 的 3.22 倍。

Screenshot-2024-07-03-at-9.40.02 PM.png

Panmnesia 的解决方案可以在市场上取得巨大进步，因为它是堆叠 HBM 芯片和实现更高效解决方案之间的中介。鉴于该公司是首批拥有创新 CXL IP 的公司之一，如果这一技术获得认可，Panmnesia 将受益匪浅。