Meta为何拒绝使用高通AI芯片?
据报道,高通是全球最大的智能手机处理器供应商,在芯片的计算能力和能效方面都非常完善。2019年高通宣布,基于在智能手机芯片领域的技术和经验,将进军数据中心人工智能芯片这个快速增长的市场。
两名知情人士透露,高通曾向Facebook的母公司Meta Platforms示好,希望Meta能成为高通首款数据中心AI芯片AI 100的标杆客户。在高通2020年秋季发布这款芯片之后,Meta将这款芯片与一系列其他选择,包括该公司此前一直使用的芯片,以及Meta自主开发的用于处理AI计算的专用芯片,进行了对比测试。根据知情人士的说法,高通的芯片在测试中表现良好,单位能耗性能最优异。对于Meta这样的公司来说,由于其数据中心服务数十亿用户,因此能效的提升可以给运营成本带来巨大的优化。
然而知情人士表示,到2021年春季,Meta表示拒绝使用高通的芯片。具体原因在于,Meta质疑高通芯片的配套软件不够成熟,无法在未来的具体计算任务中发挥出芯片的最佳性能。一名知情人士透露,在评估各种选择之后,Meta决定继续使用现有芯片。
这一事件此前从未被媒体报道过,但也表明,软件已成为AI芯片争取客户的核心因素之一。IDC分析师肖恩·拉乌(Shane Rau)表示,AI芯片的销售额预计今年将达到135亿美元,到2026年还将增长至413亿美元。他说:“至少在未来15到20年内,市场对AI芯片的需求几乎是无限的。”
高通芯片是全球数十亿部智能手机的核心,同时也支撑了智能手机拍照优化等AI功能,但AI 100是该公司在与英伟达竞争中的第一次尝试。在数据中心AI芯片领域,英伟达目前占据了压倒性的优势。该公司的主导地位不仅来自于芯片,也来自于配套软件。英伟达的软件是人工智能行业目前的黄金标准。
风险投资公司Playround Global的一般合伙人皮特·巴雷特(Peter Barrett)表示:“不仅仅是高通,每个人都在与英伟达CEO黄仁勋进行军备竞赛。他关注深度学习领域的发展,并注意到技术的发展速度。他在软件方面的努力有助于维持公司的领先地位。”Playground也投资了MosaicML等公司,这些公司帮助人工智能客户将他们的模型匹配至合适的硬件。
可以肯定,Meta的拒绝很可能只是高通在AI芯片领域暂时遇到的挫折。就在2021年9月,在Meta的测试之后,AI 100芯片在MLPerf基础测试中取得了多项第一。MLPerf基准测试是一套用于衡量AI芯片性能的行业标准。行业观察人士预计,在今年春季再次进行的测试中,高通的芯片也将表现良好。高通已经宣布了AI 100的首家客户:富士康工业互联网。该公司正在一台用于分析安防和交通摄像头视频的服务器中使用这款芯片。
与此同时,高通也在继续争取微软等其他潜在客户。微软发言人拒绝对这方面的动态置评。
高通计划将AI 100芯片用于推理计算,推理计算使用基于海量数据训练的AI模型来做出实时决策。在Meta的场景中,这通常意味着基于推荐模型,在毫秒时间段内决定向用户展示哪些内容。
为了取得更好的性能,经过训练的模型还必须针对运行模型的硬件进行优化。如果优化效果不佳,那么模型很可能只能用到硬件的一小部分可用性能,导致浪费电力。然而,模型的优化会耗费开发者的大量时间。
通常情况下,如果一种软件能优化用各种语言编写的代码,并自动匹配底层的硬件,那么就更容易得到开发者的青睐。英伟达的软件在这方面表现突出。创业公司Ceremorphic开发AI处理,该公司首席执行官文卡特·马特拉(Venkat Mattela)表示,如果直接将芯片提供给开发者,而不附带优化软件,那么就像是给用户一辆100个档位的自行车,然后指望他自己探索如何在未知的地形上,具体用哪个档位骑行。
他说:“你不可能给开发者提供100个档位,而是必须让配置看起来就是3个档位。但目前,大部分芯片公司都没有做到这点。”
有能力编写芯片配套软件的工程师非常稀缺。对于高通这样的大公司,以及其他数十家瞄准同个市场的创业公司而言,这都是个挑战。这类软件的开发需要开发者在编译器方面有专门的经验。编译器将开发者编写的代码翻译成芯片使用的机器语言。
Lux Capital合伙人沙辛·法西奇(Shahin Farshichi)表示:“这类人才受到追捧,并且非常欠缺。这已经成为主要的瓶颈。”Lux Capital投资了AI芯片创业公司Mythic和Flex Logix。