人工智能、数据中心和云计算的背后:不断变化的服务器业务
最近人们都在谈论人工智能、数据中心和云计算,记住 GPU 和 CPU 等处理器只占服务器前期成本的 20% 左右是很有帮助的。这些处理器往往最受关注,因为必须首先选择处理器,而正是这一决定推动了服务器中其他一切的选择,但它们只是总成本的一部分,内存则占 20%。但是,一台服务器一半以上的成本还是来自于更为普通的产品。
那就是:印刷电路板(PCB)、无源元件、电缆、电源、硬盘驱动器和放置它们的机架,我们应该加上网络,它的成本可能比所有其他元件都要高,但我们还是留到下次再说吧。那么,谁来销售所有这些设备,价值又从何而来?
特邀作者乔纳森-戈德堡(Jonathan Goldberg)是多功能咨询公司 D2D Advisory 的创始人。
这里有两类供应商--原始设备制造商和原始设计制造商--我们不打算拼写首字母缩略词,因为这实际上会混淆视听。一般来说,原始设备制造商拥有品牌和最终客户关系。原厂委托设计代工提供采购和制造,即所有设备的实际生产和组装。在两者之间,设计和系统集成领域有相当多的重叠,重要的是,原始设备制造商和原始设计制造商之间的界限是模糊的,在许多领域都有很大的交叉。
一段历史。20 世纪 90 年代,随着个人电脑制造商将生产基地从美国转移到亚洲,这种模式应运而生。个人电脑品牌,即原始设备制造商将业务外包给主要位于台湾的合同制造商。这些公司在台湾生产设备,后来大量转向中国。随着时间的推移,合同制造商向价值链上游移动,增加了设计能力。合同制造商变成了原始设计制造商,然后其中许多公司分拆成独立公司,销售自己的品牌产品,成为自己的原始设备制造商。这种模式逐渐演变成今天大多数大批量电子产品的生产方式。
服务器的发展速度略有不同。这些产品的产量较低,价格较高,因此 OEM(品牌所有者)可以更长时间地保留设计功能(有时是制造功能)。多年来,原始设备制造商与英特尔公司合作设计了一系列服务器。然后,他们将这些产品销售给客户。虽然它们提供各种配置,但这些基本上都是目录系统--客户从可选项中挑选。
十余年后,云改变了这一切。
最关键的是,公共云提供商(又称超大规模提供商)开始主导市场,不仅集中了经济实力,还集中了技术能力。随着时间的推移,超大规模企业在很大程度上摒弃了原始设备制造商,直接与原始设计制造商合作,采购他们自己设计的系统。
如今,原始设备制造商主要包括惠普、戴尔和联想。原始设计制造商有数百家,但最大的都在台湾,包括仁宝、富士康、英业达、广达和纬创。这些公司都非常多样化,在供应链中分布着数十家子公司。此外,还有一些其他委托设计代工公司,它们往往专注于特定的利基市场,例如时下的热门股超微公司(SuperMicro),它们的专长是 GPU 服务器。
如今,超大规模企业与其他所有人之间存在着鸿沟。试想一家大型企业,如银行、快餐连锁店或汽车制造商,他们可能仍然希望拥有自己的服务器,甚至数据中心。他们将与原始设备制造商合作,后者将为他们提供可供选择的系统目录。然后,原始设备制造商通常会充当系统集成商的角色--与所有供应商合作采购零部件、组装印刷电路板,然后将所有设备连接在一起并安装软件。原始设备制造商在这里扮演着重要的角色,因为很多采购决策都是由他们做出的。
相比之下,超大规模企业运营着数十个数据中心。他们的业务建立在巨大的规模经济基础上,如果能降低 5%的服务器成本,就能节省数亿美元。除此之外,他们还拥有集中的技术人才。简单地说,他们有能力雇用团队来设计针对其特定需求进行优化的服务器。而其他大公司则没有这样的团队,也不需要这样的团队,只是运营规模不同而已。然后,超大型企业直接与原始设计制造商合作,由后者收集所有组件,组装系统并布线。在这里,几乎所有组件的购买决定都是由最终客户做出的。
这给所有元件供应商带来了一个大问题。试想一家芯片供应商。他们需要说服客户购买他们的芯片,但客户要的不是芯片,而是一个完整的工作系统。在他们同意任何大额订单之前,客户会希望测试该系统,确保它能很好地运行他们的软件。因此,芯片供应商必须与 OEM 或 ODM 合作设计该系统。而这些设计是要花钱的。一个由 5-10 人组成的团队需要一两个月的时间来布置一切、验证性能并确保固件和软件的兼容性。然后,还得有人购买元件来制造一些原型。
这些成本增加得很快,每个系统动辄几十万,通常达到七位数。因此,芯片供应商在销售单个芯片之前,必须投入大量资金。客户都希望服务器尽可能接近他们的需求,这意味着必须有人生产多个版本的服务器,因此成本会急剧上升。而这一切,都要在人们知道该平台的销售情况之前。
这个问题越来越严重。当只有英特尔和 AMD 在销售服务器 CPU 时,供应链的决策空间有限,而且都是成熟的供应商。而现在,CPU设计者多达十几家,组合难度大大增加。任何想进入人工智能加速器市场的人都必须面对所有这些成本。而对于较小的供应商来说,他们必须非常谨慎地对待自己的赌注。
投资于热门芯片的支持,回报可能是巨大的,但投资于错误的平台,回报则是巨大的损失。在向超级计算机销售时,问题就更加突出了。他们需要的远不止几个原型。他们有严格的测试周期,从十几个系统到几百个系统,再到几千个系统。他们可能会为此付费(也可能不付费),但任何设计芯片的公司都需要比这更大的产量,才能证明测试系统的成本是合理的,更不用说整个芯片的成本了。
当然,也有各种各样的计划来实现这些方面的标准化。开放计算项目的核心任务是实现服务器设计的标准化。虽然开放计算项目为业界做出了一些重大贡献,但我们认为没有人会将其描述为通用标准。所有这些都将变得更加复杂。
数据中心日益多样化,从纯 CPU 到异构计算,这迫使所有供应商(不仅仅是芯片设计商)开始承担一些重大风险。许多厂商会追逐每一笔交易,其他厂商则可能会重蹈覆辙,专注于 AMD、英特尔以及现在的 NVIDIA。聪明的厂商会采取投资组合的方式开展业务,并以类似对冲基金经理或风险投资者的方式监控自己的选择。我们无意危言耸听,这在很大程度上是电子产品周期性的自然规律。随着时间的推移,该行业将找到一些新的平衡点,但未来几年将更加混乱。