IBM官宣全新光学技术 用光也能训练AI?
近日,IBM宣布了一项重大的光学技术突破,该技术可以以光速训练AI模型,同时节省大量能源。这篇IBM发布的技术论文显示,这项技术是一种新型的共封装光学技术(co-packaged optics),可以利用光速实现数据中心内部的连接,从而替代目前使用的铜电缆。
尽管光纤技术已在全球商业和通信中广泛应用,但大多数数据中心内部仍依赖于铜电缆进行短距离通讯。这导致 GPU 加速器在训练过程中常常处于闲置状态,浪费大量的时间和能源。
因此IBM的研究团队展示了如何将光的速度和容量引入数据中心,显著提高数据中心的通信带宽,减少 GPU 的闲置时间,从而加速 AI 模型的处理速度。
IBM高级副总裁兼研究总监Dario Gil在评论这一技术时表示:
“由于生成式AI需要更多的能源和处理能力,数据中心必须不断发展——而同封装光学器件可以使这些数据中心面向未来。有了这一突破,未来的芯片将像光纤电缆将数据传入和传出数据中心一样进行通信,开启一个更快、更可持续的通信新时代,可以处理未来的 AI 工作负载。”
至于效果如何,根据IBM计算出的结论表示,大型语言模型 (LLM) 的训练时间可以从三个月缩短到三周。同时,提高能源效率将减少能源使用量并降低与训练 LLM 相关的成本。换算成发电量的话,训练 AI 模型时节省的能源相当于5000个美国家庭的年度能源使用量。
事实上,CPO并不是最近才有的新技术。早在一年前,台积电就携手博通、英伟达等大客户共同推进这项技术的研发进度,制程技术从45nm延伸到7nm,原计划2024年就开始迎来大单,并在2025年左右达到放量阶段。
这种所谓的“硅光芯片”,是在硅的平台上,将传统芯片中的电晶体替换成光电元件,进行电与光讯号的传导。对比传统芯片会出现电讯号的丢失与耗损的情况,光讯号不仅损耗少,还实现更高频宽和更快速度的数据处理。
原理上很简单,但实际推广上难度并不小。
首先,硅光产品并没有到大规模需求阶段。虽说有自动驾驶和数据中心两大领域的需求,但目前还没有主流芯片厂商推出高性能芯片。
其次,硅光产品需要考虑相对高昂的成本问题。受限于大量光学器件,一个硅光器件需要采用各种材料,在缺乏大规模需求的情况下,硅光产品成为一种“高价、低性价比”的产品。同时,器件的性能与良品率难以得到保障。
最后,硅光芯片在打通各个环节还需要努力。例如设计环节,虽然已经有EDA工具支持,但算不上专用;而在制造与封装环节,类似台积电、三星等大型晶圆代工厂都没有提供硅光工艺晶圆代工服务。
即便是已经推出COUPE技术的台积电,短时间内会专注更加成熟的封装方案,很难匀出产能提供给硅光芯片。
另外,不同厂商对于硅光产品的理解也各不相同。目前作为硅光赛道真正的老大哥英特尔已经陷入了低谷,很难抽出精力继续硅光子技术。
因为这次IBM推出CPO技术,大概率只是储备新技术,距离商用还有段时间。