GPU，新竞赛 - cnBeta.COM 移动版(WAP)

在AI时代，最硬的“资本”不再是资金，而是算力。有数据显示，2023年全球AI算力需求同比增长超过300%，预计2024年将突破500%。随之而来的，便是GPU需求量猛增，全世界大厂或创业公司都在各显神通解决“芯荒”难题。

据IDC的研究报告，2023年第四季度，全球GPU供应缺口高达30%。特别是高端AI专用芯片更是供不应求，中小企业的采购周期长达6~12个月。

Omdia数据显示，高端GPU芯片产能和流向集中在少数厂商手中，形成了供应链垄断。加之制造工艺的技术壁垒，中小企业很难直接采购到所需的高性能算力资源。即便勉强拿到资源，交付周期也普遍较长，严重制约了项目进度。

近日，马斯克的xAI宣布完成60亿美元C轮融资，旨在扩建全球最大AI超算，将扩展到20万张GPU。战略投资者英伟达和AMD也参与其中，并继续支持xAI快速扩展基础设施。GPU巨头不断押注新赛道的同时，也将进一步加剧寡头垄断GPU市场的“马太效应”。

另一方面，算力资源价格持续上涨。调研数据显示，GPU市场价格持续走高，算力成本已占到企业AI投入的过半数，同时还要持续承担运维人力和电费等开支。这无疑加重了企业的成本压力。

可见，面对爆发式增长的算力需求，企业和开发者往往陷入“买不到、买不起、用不好”的困境。

对此，GPU云算力供应作为一种全新的解决方案，正在逐步成为业界的共识。

云端GPU赛道，呼声渐起

与传统的自建服务器或抢购紧俏的GPU芯片模式相比，通过云供应商获取算力具有诸多核心优势：

从经济效益角度来看：云服务模式能够大幅降低初期投入。企业无需一次性购买服务器等硬件，而是根据实际需求，灵活调整租用规模，做到按需付费。与此同时，也无需承担运维成本，大幅提高了投资回报率。

在技术层面上：云算力供应商能够提供即时交付、随时升级的资源配置，用户可以避免长期的采购周期。同时，专业的运维保障，也确保了计算资源的高可靠性和稳定性。

对于AI研发团队而言：云算力租赁能显著提升工作效率。用户可以快速启动项目，免去环境配置的繁琐，集中精力做好算法创新。此外，标准化的开发流程也有助于提高研发质量。

“算力告急”——云服务商巨头从中嗅到了商机。

亚马逊AWS、微软Azure和Google云在2023年宣布了新的数据中心建设计划，预计到2025年，这些新增的数据中心将能提供超过2000万张GPU的算力。

市场研究机构Synergy Research Group公布的2024年第一季度云服务市场报告显示，相较于去年同期，今年第一季度全球企业云基础设施服务支出增长了21%，达到765亿美元。而亚马逊、微软、Google三大巨头则牢牢把控着云计算市场，市场份额依次为31%、25%、11%。

不难看到，GPU已经成为硅谷最热门的硬通货，引发了前所未有的AI投资大暴增。

据Omdia预计，2024年服务器支出中，约有43%投向了英伟达。其中，数据中心基础设施的前十大买家（包括新晋企业xAI和CoreWeave在内），占据了全球计算能力投资的60%。而全球科技公司在服务器上的支出，则将达到2290亿美元这一惊人数字。

在这个过程中，随着AI大模型的迅速崛起，计算的核心从CPU悄然转向了GPU。一场前所未有的技术革命正在酝酿，而这场革命的主角正是GPU。这并非简单的硬件升级，而是对整个云计算生态的重新定义。

GPU不仅仅是性能更强，它的出现实际上重新定义了云计算的底层逻辑。传统的云计算巨头都必须面对一个残酷的现实：过去依赖的技术优势正在被快速蚕食。更为重要的是，行业的新兴玩家正抓住这一机遇，迅速崛起，试图挑战这些巨头的霸主地位。

在算力资源高度紧张的背景下，越来越多的企业倾向于选择GPU云服务作为解决方案。

GPU云服务提供商凭借其专业的技术团队和先进的基础设施，能够为中小企业提供稳定、高效的GPU计算资源，帮助它们突破算力瓶颈。企业无需投入巨资购买硬件设备和建设机房，只需根据实际需求灵活选择云服务套餐，即可快速获得强大的计算能力，助力业务发展。

更为重要的是，GPU云服务具有高度灵活性和可扩展性，这种按需付费、灵活扩展的服务模式，无疑为中小企业的发展提供了强大的支持。

相较之下，大型云服务巨头虽然拥有最新款GPU，但高昂的价格、额外的进出流量费用，以及复杂的功能设置，都使得部署过程变得繁琐且成本不菲，这对初创型企业而言尤为不利。

云端GPU解决方案“呼声”最高，切实地解决了开发者在GPU算力、成本效益、部署便捷性等方面的诸多痛点，为企业的快速发展提供了强有力的支持。

以云GPU提供商CoreWeave为例，其声称服务速度比传统云厂商快达35倍，成本低80%，延迟低50%。作为首选云服务提供商已加入NVIDIA合作伙伴网络，而且还拿到了英伟达的投资，比起资金，英伟达还给了它一项更稀有的资源——GPU芯片。

过去一段时间来，云GPU服务正逐渐成为新的发展机遇，相关公司数量急剧增加。2023年全球GPU云市场规模为32亿美元，预计到2030年将增长至255亿美元，复合年增长率达到34.8%。

巨大的市场潜力下，英伟达、AMD等GPU大厂也在积极向该赛道布局。

GPU巨头，押注云端GPU

1. NVIDIA力挺CoreWeave

CoreWeave的大火被看作AI云颠覆传统云计算的一个开端。

和传统云计算厂商卖计算资源、存储空间和各种云服务不同，CoreWeave专注GPU云计算，特别是与AI领域的紧密联系。

据了解，CoreWeave是一家专门为企业级GPU加速工作负载提供云服务商。他们的Kubernetes原生基础设施专为机器学习、VFX渲染、像素流和批处理等计算密集型用例而构建。

CoreWeave创始人Brannin表示，CoreWeave的云不是简单地加上GPU然后让用户能够使用它。它其实是一个复杂的系统，像是一个大舞台的导演，管理着所有的资源和设备，让用户可以方便地访问和使用这些资源。

这和那些大公司的云不同，因为传统云主要是为了托管网站和存储数据，而CoreWeave是从头开始打造的，专注于运行AI和其他需要大量并行计算的任务。客观来讲，CoreWeave的产品体系覆盖了高性能计算的各个方面，从硬件资源到软件服务，让模型训练、托管、微调以及推理服务变得简单。

GPU加速将计算任务中高度密集的计算或数据并行部分转移给GPU。客户倾向于将提供更优化CPU工作负载的传统供应商与CoreWeave配对使用，因为CoreWeave针对GPU过程进行了优化，以提高效率、节省成本和可扩展性。

客户使用CoreWeave来租赁算力（通常是NVIDIA GPU）来完成他们需要运行的各种工作负载。这使得他们不再需要拥有自己的专用硬件来运行应用程序，而是可以通过CoreWeave的后端云基础设施完成这一切。

除此以外，CoreWeave使用InfiniBand技术建立了高性能的网络，能够满足大规模数据处理和传输的需求，从而有助于AI产品更快速地发展和规模化。

总结来看，CoreWeave之所以是当下AI公司具有性价比的选择：一方面，CoreWeave提供了业内价格最低、最广泛的NVIDIA GPU系列选择，客户可以根据自己的工作负载选择合适的GPU，从而确保性能和成本的最优化。并且与其他云提供商不同，CoreWeave在绝大多数用例中不收取区域间传输、工作站数据或出口等费用，这样客户就不用担心数据传输会花很多钱。

另一方面，CoreWeave提供了按需定价模式，意味着客户只需支付他们实际使用的资源费用，无需签订长期合同或做出任何承诺。这种灵活性使得客户能够根据自己的实际需求进行扩展或缩减，从而节省成本。这就不难解释，CoreWeave的云基础设施的速度会比通用公共云快35倍，成本却低了80%。

2023年4月，CoreWeave获得了来自英伟达的2.21亿美元B1轮融资。黄仁勋在业绩电话会点名“你会看到一大批新的GPU专业化云服务提供商”“最知名的当属CoreWeave，他们做得非常出色。”

更为关键的是，英伟达给CoreWeave提供了“无比抢手”的A100、H100等GPU芯片。去年8月，CoreWeave就将英伟达GPU作为抵押品，获得了另外23亿美元债务融资，资金将用于收购更多芯片，以及建设更多数据中心。

CoreWeave与英伟达的合作不仅仅是设备采购的关系，双方还在技术支持和资源整合方面深度协作。英伟达可以向CoreWeave提供定制版CUDA、专用优化芯片甚至专属的软件堆栈，确保客户能够发挥出每台GPU的最大效能。

这种深度绑定的合作，使CoreWeave在高性能GPU的供应和技术支持方面获得了优先级，从GPU采购、数据中心优化，到AI模型部署，向客户提供一站式解决方案，这也是其能够在短时间内吸引顶级客户的重要因素之一。

可以看到，CoreWeave这家从挖矿业务转型而来的公司，抓住了市场机遇，迅速崛起，成为AI行业的重要算力提供商。

2024年，CoreWeave公司官方预测年度营收约24亿美元，前两年分别是3000万和5亿，虽然体量上和AWS这些巨头相去甚远，但夸张的增长态势，已经不得不让所有人对这个新兴的行业侧目。

值得一提的是，在英伟达H100 GP的前十二大客户中，CoreWeave和Lambda Labs作为少有的初创公司赫然在列，他们与英伟达颇有渊源。

早在2023年H100芯片首推之际，英伟达就选择了CoreWeave和Lambda作为首批使用该芯片的公司。而且它们的融资过程中都可以发现英伟达的投资身影：2023年4月英伟达参与了CoreWeave 2.21亿美元的B轮融资；2023年7月，英伟达向Lambda Labs投资3亿美元。

此外，总部位于荷兰的AI基础设施公司Nebius Group近日宣布，已与精选的机构和投资者达成最终协议，获得7亿美元融资，而在众多投资者中，英伟达赫然在列。

Nebius是一家人工智能基础设施服务商，主要为全球人工智能先驱进一步构建全栈人工智能基础设施，并提供大规模GPU集群、云平台以及面向开发人员的工具和服务。由于英伟达的投资，Nebius股价一度大涨，已达最近两年以来的最高价。

2. AMD投资GPU云端供应商Vultr

近日，云基础设施创企Vultr宣布完成3.33亿美元融资，估值达35亿美元。本轮融资由LuminArx Capital Management和AMD Ventures联合领投，这是该公司成立十年来首次进行股权融资。

Vultr以提供低成本虚拟服务器而闻名。目前，Vultr主要提供AMD和NVIDIA的GPU租赁服务，运营着32个数据中心的云平台网络，提供起价2.5美元/月的低成本实例服务。此外，公司还提供裸机服务器、Kubernetes平台等进阶基础设施选项，以及数据库等托管服务。今年早些时候，Vultr推出了AI推理服务，可根据用户需求自动调整AI模型的基础设施配置。

值得注意的是，Vultr本月在伊利诺伊州启用了一个由数千台AMD MI300X机器学习加速器驱动的AI超算集群。MI300X采用5纳米工艺制造的八个GPU芯片，配备192GB HBM3内存，使用Broadcom和Juniper Networks的以太网设备实现芯片互联。

此次融资也反映了AI基础设施市场的迅速升温。继CoreWeave获得230亿美元估值、Lambda筹集3.2亿美元后，AMD选择支持Vultr，显示了芯片巨头正在通过生态系统合作伙伴加速布局AI云计算市场。这一趋势预示着AI基础设施即服务可能成为下一个重要的云计算增长点。

此外，业界还涌现出了Paperspace、Runpod、Jarvis Labs、Vast.ai、Paperspace、GMI Cloud、Together AI等诸多GPU云服务提供商。这不仅反映了对该赛道未来增长潜力的信任，也显示了云计算行业的持续增长趋势。

这些企业的迅速崛起，也正是抓住了全球AI算力需求增长的市场机遇。随着生成式AI和大规模AI模型的广泛应用，对高性能算力的需求持续攀升。根据市场研究机构的数据，云计算市场预计将在未来几年内以每年超过20%的速度增长。而随着企业IT基础设施的数字化转型，GPU云服务商将成为市场不可或缺的组成部分。

换个角度来看，对于一家AI公司的大模型而言，退出训练阶段后，在产品上市的前两年内，商业化阶段的推理执行仍然至少需要百万个GPU，但目前市场的供给远不足够，这将是一个长期的挑战。

换句话说，未来不排除越来越多像CoreWeave、Vultr的公司出现，毕竟AI这股洪流的到来已经是个确定性的话题。

英伟达，试图从云服务市场分一杯羹

时势造英雄，每一次科技革命都会有新的弄潮儿脱颖而出，GPU巨头除了押注云端GPU赛道之外。英伟达还借着生成式AI浪潮，以其前期积累的GPU优势，加速向云计算市场迈进。

尤其是在云计算领域正遭遇瓶颈的当下，随着对AI解决方案的需求不断增长，云巨头正在重新考虑其战略。许多提供商不再仅仅依赖GPU，而是转向定制专用芯片，以提高性能、降低成本并满足客户不断变化的需求。

巨头们群狼环伺——微软、亚马逊自研AI芯片、Google打造最强TPU、OpenAI眉来眼去NPU……这一转变不仅是为了填补GPU短缺留下的空白，更是重新定义云基础设施未来的战略举措。定制芯片还使超大规模企业能够重新思考如何实现性能、可扩展性和成本效益。

这些贡献半壁江山的客户，暂时在自研芯片方面虽尚未对英伟达产生威胁，但大家却都存在一个共识：“英伟达不会永远在大规模训练和推理芯片市场占据垄断地位。”

在此背景和趋势下，英伟达近几年来一直在做AI芯片的延伸投资，意图打造一个新的生态闭环产业链

除了扶持CoreWeave、Lambda等小规模云计算服务商之外，英伟达也在自己造云。

在2023年3月的GTC 2023大会上，英伟达首次发布了云产品DGX Cloud，该服务基于英伟达DGX AI超级计算集群，每个DGX Cloud实例都配有8个H100或A100 GPU以及640GB内存，允许用户在云端租用计算资源，无需自己购买和维护昂贵的硬件设备。这使得开发者和研究人员能够更便捷地访问高性能计算资源，特别是针对深度学习和AI应用，该服务基于NVIDIA的DGX系列超级计算机，这些计算机拥有强大的GPU和深度学习加速器，能够快速进行复杂的计算任务。

通过DGX Cloud，英伟达租用亚马逊、微软、Google和甲骨文等头部云提供商带有GPU的服务器，然后再将这些服务器出租给自己的客户，这构成了NVIDIA与自己最大客户间的复杂关系。面对这么霸道的协议，一开始AWS誓死不从，但最后还是被迫接受了。

据悉，英伟达DGX云服务已经获得了一些大买家的青睐，如IT软件巨头ServiceNow、生物制药公司Amgen和保险公司CCC Intelligence Solutions。

有分析认为，英伟达选择将DGX Cloud托管在各家云服务商的云平台上的做法，表面看并没有和云厂商们站在完全的对立面。从英伟达的角度来看，在传统云提供商的数据中心内推出这种云服务是公平的。

本质上，英伟达DGX CLOUD就是一门云计算生意，英伟达还不必投入以数亿乃至数十亿美金建设自己的数据中心，利用自己GPU的议价权直接有了开展云计算业务的基础，此举不可谓不妙。

但对云服务厂商而言，英伟达已经和云厂商客户形成了竞争态势。谁将因英伟达云计算支出增加收益，目前尚不清晰。但原本从亚马逊、微软、Google和甲骨文采购AI服务的客户，可能会倒向英伟达。

与此同时，AWS、微软和Google正加速向云客户出售或正在开发自己的AI服务器芯片，希望减少对英伟达芯片的依赖，关系正变得越来越复杂。

另外还有报道称，英伟达的工程师利用他们对自己芯片的了解，对DGX Cloud服务器进行调优，使其性能优于其他云提供商的服务器。

已有客户表示已经注意到了DGX Cloud与其竞品之间的差异。据悉，与传统云提供商为客户提供的GPU服务器相比，DGX Cloud的性能非常高，而且售价也非常有竞争力。并且由于当前GPU服务器比较难找，一些公司正使用多种云提供商，尽可能多地获取它们的访问权。

在算力之外，英伟达的云服务还提供一整套AI解决方案。DGX Cloud上集成的AI Enterprise服务，是英伟达AI平台中的软件层，通过提供端到端AI框架和预训练模型，简化生产级AI的开发和部署。对比传统云厂商，DGX Cloud为用户提供软硬件一体的服务。同时，因为DGX Cloud跨多个云提供商运行，它可能会成为AI开发人员的一站式解决方案。

分析认为，尽管英伟达在云计算领域的竞争中仍然落后于现有巨头，但凭借其对GPU的深入了解和高性价比的产品，英伟达有望在未来赢得更多市场份额。

今年4月，英伟达还以7亿美元收购了人工智能工作负载管理初创公司Run:ai，用以补强DGX Cloud；今年中旬，英伟达再次宣布了一项高达90亿美元的投资计划，主要围绕着与亚马逊、微软、Google和甲骨文等主要云服务供应商的合作。

英伟达首席财务官科莱特·克雷斯在财报声明中表示，云计算投资将有助于为英伟达DGX Cloud提供支持。身为AI淘金热的“卖铲人”，英伟达已不满足于只做硬件，试图从云服务市场分一杯羹。

英伟达是全球市值第三大的公司，也是云计算服务领域最大买家之一。此轮动作，或将改变云服务市场格局。

写在最后

市场研究机构Synergy Research Group公布的2024年第一季度云服务市场报告显示，相较于去年同期，今年第一季度全球企业云基础设施服务支出增长了21%，达到765亿美元。而众所周知，在云计算市场上，亚马逊AWS、微软Azure、Google云三大云巨头牢牢把控，市场份额依次为31%、25%、11%。

面对众多云计算市场的好手，曾经的一众挑战者纷纷暗淡收场。

与此同时，受制于英伟达的巨头们纷纷自研AI芯片的威胁。目前，虽然微软、亚马逊、甲骨文、特斯拉等都是英伟达GPU的大客户，但是，近几年这些“大金主”们纷纷自研AI芯片，Google的TPU系列，亚马逊的Inferentia和Trainium系列，以及微软今年被曝光的Athena芯片。

英伟达的各大“金主”希望减少来自英伟达的“GPU税”。

摩根士丹利估计，在云服务提供商推动下，定制AI芯片市场规模将从2024年的1200亿美元，增长到2027年的3000亿美元，增速将超过GPU市场。TPU、定制芯片的崛起，让激烈的AI芯片市场的竞争格局正发生深刻变化。

作为GPU市场上的王者，黄仁勋岂容他人蚕食英伟达的领地，更难以接受AMD、英特尔以及中国厂商等竞品们的步步紧逼。

而进攻就是最好的防守，因此，英伟达通过下场布局云服务展开反击也就不难理解了。手握GPU巨大优势的英伟达，反而转向卖起了GDX cloud和AI软件服务，动的就是云厂商的蛋糕。

英伟达芯片产能“卡脖子”，投资云端GPU服务商、自有云业务抢客户，这些举措将成为英伟达布局云市场的重要棋子，逐步渗透并改变云计算市场格局。

传统云厂商曾凭借规模和技术积累建立起高墙深壕，但今天的AI计算市场，芯片和算力才是王道。在这个新的战场上，它们的护城河正在逐渐失去优势。英伟达正在凭借芯片王牌和多重布局，搅动云计算市场。

一场围绕着GPU芯片与云计算的明争暗斗，正在科技界缓缓拉开大幕。

未来的云计算市场不再只是传统云巨头之间的直接竞争，而是云巨头、芯片供应商以及新兴玩家之间的多方博弈。这场博弈，最终或将决定市场未来十年的格局。

无论是哪个领域的龙头，最终都要尊重市场和产业结构的演变。而能够洞察下一个风口并先行动的公司，才可能成为最后的赢家。