本文来自微信公众号“数据猿”,【作者】 一蓑烟雨。
最近发生的一些事情,让我萌生一个有意思的想法——如果英伟达直接提供GPU云服务,市场会怎么变?
云计算市场长期以来由头部几家巨头垄断,AWS、Azure、Google Cloud,还有阿里云、华为云、腾讯云等,占据了绝大部分市场份额。这些巨头凭借庞大的数据中心网络、成熟的云操作系统和丰富的应用生态,构建起了稳固的市场格局。
但最近发生的一些事情,让我们看到了全球云计算市场格局开始出现松动的迹象。
第一个信号,来自马斯克的Colossus。
短短几个月,马斯克用10万块英伟达H100 GPU,构建起一个智算集群。这种规模的计算资源,传统云厂商通常需要耗费数年才能部署。
第二个信号,则是CoreWeave的迅速崛起。
这家曾经名不见经传的小公司,如今已经成长为估值上百亿的GPU云计算新贵。它靠的不是传统云厂商赖以自豪的基础设施,而是手握英伟达GPU,用更灵活的方式切入云计算市场。
而且,这两件事情背后,有一个共同的推手:英伟达。
长期以来,英伟达作为芯片供应商,站在云计算市场的幕后。然而,现在它的影响力正逐步渗透到整个产业链,甚至有可能成为重塑云计算格局的最大变量。随着GPU云服务的兴起,英伟达不仅能卖芯片,还可能成为最大的云厂商。
一、CoreWeave和Colossus,飘荡在云计算市场上空的“两朵乌云”
在云计算市场,巨头们曾高枕无忧。AWS、Azure、Google Cloud,以及中国的阿里云和华为云等,都靠着庞大的数据中心、成熟的云操作系统和强大的生态体系,牢牢掌控着市场。然而,最近两件事却像一记重拳,直接击中了传统云厂商的“护城河”。
先说CoreWeave的崛起。
这家成立于2017年的公司,原本不过是加密货币热潮中的一员,通过GPU为矿工提供算力。然而,当2018年加密市场崩盘后,CoreWeave快速转型,将手中的GPU算力投入到另一个迅速崛起的市场——AI计算。
它的成长速度令人咂舌。短短几年,CoreWeave已估值超过230亿美元。更令人惊讶的是,它并没有依赖传统云计算的核心优势——数据中心的规模和云操作系统的复杂性,而是靠着灵活高效的GPU云服务,在AI算力市场中杀出了一条血路。与其说CoreWeave是一家云服务商,不如说它是一家AI算力“黄牛”,通过大量采购英伟达的GPU资源,再转售给有需求的企业。
这其中的关键是英伟达的支持,英伟达不仅为CoreWeave提供了最先进的GPU技术,还通过与其合作优化的算力服务,帮助客户在AI训练中大幅节省成本。根据Andreessen Horowitz的分析,CoreWeave的定价远低于AWS、微软、谷歌和甲骨文等传统云服务商的GPU价格。甚至,其打出了一个口号:“比传统云提供商快35倍,成本低80%,延迟低50%”。
资料来源:a16z
CoreWeave的迅速崛起,揭示了一个新趋势:在AI计算领域,传统云巨头引以为傲的数据中心规模和技术生态,已经不再是必需品。
再来看马斯克的Colossus超级计算机。
这台被称为全球最大AI集群之一的超级计算集群,在短短122天内建成,总计使用了超过10万块英伟达H100 GPU。整个项目的速度和规模都令人瞠目。Colossus的服务器全部由Supermicro制造,采用4U液冷系统,每台服务器集成8个H100 GPU,并通过液冷分配单元进行散热。这种极致高效的硬件组合,为Colossus提供了惊人的算力。
更引人注意的是它的网络设计,每台GPU都有一个400GbE的专用NIC(网络接口控制器),加上额外的400GbE NIC,单台服务器的总带宽达到3.6Tb/s。这种以太网带宽设计,比传统超算中常用的InfiniBand网络更加灵活高效。这让Colossus不仅能够应对AI模型的超大规模训练任务,还能在实际部署中保持超高性能。
Colossus的建造速度和规模,直接暴露了传统云厂商的一个重大问题:它们在快速响应AI算力需求方面的能力,远不及像马斯克这样的新玩家。AWS、Azure等传统巨头扩容一个数据中心,可能需要一年甚至更长时间,而马斯克的团队用短得多的时间,就完成了Colossus中全部GPU的部署。
正因为马斯克的超级速度,让OpenAI对微软云算力建设的进步产生了不满。甚至,有点搞笑的是,据传有云厂商甚至动用了“谍战”手段,用直升机去Colossus工厂的上空偷拍。
可以说,从CoreWeave到Colossus,这些新玩家正在重塑云计算的游戏规则。
过去,云计算的竞争主要围绕数据中心规模和云服务的广度展开。而在AI计算崛起后,核心竞争力已经转向了高性能计算的部署效率和硬件资源的掌控能力。英伟达的GPU、优化网络、液冷技术,正在成为新的关键。
传统云厂商曾凭借规模和技术积累建立起高墙深壕,但今天的AI计算市场,芯片和算力才是王道。在这个新的战场上,它们的护城河正在逐渐失去优势,而像CoreWeave和马斯克这样的新玩家,正在用速度和灵活性发起挑战。
问题是,护城河还能撑多久?答案恐怕并不乐观。
二、云厂商需要哪些核心能力,英伟达已经具备了多少?
无论是CoreWeave还是Colossus,他们之所以取得成功,都离不开其背后的“男人”——英伟达。
既然,英伟达能帮助Colossus在短期内构建一个庞大的计算集群,甚至帮CoreWeave在短时间内成为不可忽视的云计算新玩家。那么,英伟达是否可能从幕后转向前台,自己发展云计算业务呢?这是一个有意思的问题。
云服务看似是一门简单的生意:卖算力、存储、带宽。但要真正构建并提供云服务,背后是一个庞大而复杂的体系。传统云巨头AWS、Azure、Google Cloud,正是凭借深厚的技术积累和运营能力,才牢牢占据市场主导地位。那么,英伟达有机会成为它们的竞争对手吗?要回答这个问题,首先要看它能否填补云服务体系中的所有关键环节。
英伟达的技术实力毋庸置疑,尤其在数据中心领域,它已不再是单纯的GPU供应商,而是在构建一整套从硬件到软件的全栈解决方案。
硬件层面,英伟达几乎掌握了数据中心的核心命脉。
GPU是数据中心中最重要的算力引擎,而英伟达在高性能GPU市场的统治力无需多言。从A100到最新的H100,这些产品已经成为AI计算的核心驱动力。此外,英伟达在GPU之外的布局同样值得关注。它推出的DPU(数据处理单元),例如BlueField系列,已经成为现代数据中心架构中不可或缺的一部分。DPU负责处理网络、存储、安全等任务,能有效减轻CPU和GPU的负担,大幅提高数据中心的整体性能。
更重要的是,英伟达在高性能网络技术上的突破。它通过收购Mellanox掌握了InfiniBand,这种网络技术被广泛用于超级计算领域,以提供极低的延迟和高带宽。InfiniBand不仅在分布式AI训练中表现卓越,还能为数据中心中的计算节点之间提供高效通信。除此之外,英伟达还推出了Spectrum以太网交换机,以覆盖更多主流网络需求。
除了计算和网络,英伟达在数据中心的能耗优化和冷却技术上也下足了功夫。它的液冷解决方案已经在一些前沿数据中心中得到应用。通过这些技术,英伟达不仅降低了硬件的功耗,还提升了整个系统的稳定性和运行效率。
软件层面,英伟达的CUDA和DGX生态堪称行业标杆。
CUDA几乎是所有AI计算任务的基础,无论是深度学习、科学计算还是高性能数据处理,CUDA已经成为事实标准。配合其DGX超级计算机和SuperPOD集群解决方案,英伟达提供了一种“即插即用”的超级算力体验。这不仅简化了高性能计算的部署,还极大降低了客户的技术门槛。
英伟达的数据中心解决方案,已经从硬件层面深入到系统架构和运营优化,为其进军云服务市场奠定了坚实的基础。
当然,英伟达并不是完美的,他也有短板。
尽管在数据中心硬件和架构上表现亮眼,但真正运营云服务还需要强大的资源管理和服务运营能力,这是英伟达目前的明显短板。
首先是资源调度与多租户管理。
云服务的核心在于动态分配资源。AWS和Google Cloud之所以能在全球范围内高效提供服务,依赖的是其自研的云操作系统和调度系统,如AWS的Nitro架构和Google的Borg系统。这些系统不仅能优化资源利用率,还能确保多租户环境下的任务隔离和安全。相比之下,英伟达在这一领域还没有成熟的解决方案。虽然其DGX和SuperPOD系统具备一定的资源管理能力,但在真正的云环境中,这些能力仍然不足以支持大规模多租户需求。
其次是服务运营能力。
云服务不仅是技术竞争,更是运营能力的比拼。客户希望获得7×24小时的全球支持,这需要强大的客户服务网络、自动化运维能力和快速响应机制。AWS等传统云厂商经过多年积累,已经形成了完备的全球化服务体系,而英伟达作为硬件提供商,尚缺乏类似的运营经验。如何建立起这样的服务网络,对英伟达来说将是一个巨大的挑战。其实,技术和运营体系上的短板,英伟达补上来并不是那么难,更大的挑战可能来自客户关系。
AWS、Azure和Google Cloud是英伟达GPU的最大采购商,支撑了其GPU业务的大部分营收。如果英伟达转型成为直接竞争对手,这些客户是否会减少甚至停止采购?AWS、Google等公司已经在开发自己的AI芯片(如AWS的Trainium和Google的TPU),一旦英伟达切入云服务市场,可能加速它们的自研进程。这将直接威胁到英伟达的核心业务。
基于这个原因,英伟达也不得不掂量一下。
基于上述分析,我们可以通过一个简单模型,对英伟达的能力进行综合评估:
我们将云厂商需要具备的核心能力解构出来,并对英伟达目前的水平进行打分(合格是10分),得到下表:
从目前情况看,如果要成为一个云厂商需要10分,那现在英伟达大概可以得到7.3分。
三、英伟达最可能的策略,是“代理人战争”
直接下场做云厂商,英伟达面临的阻力巨大。它不仅要补齐自身在资源调度和运营服务方面的短板,还得面对AWS、Azure等核心客户的激烈反弹。简单地推倒重来显然不现实。那么,英伟达会就此止步于硬件霸主的身份吗?显然不会。在我们看来,它很可能会选择一条更为隐秘但同样有力的路径——扶持“嫡系”,通过代理人之手撼动云计算市场。
CoreWeave,就是英伟达的一个试验田。
CoreWeave,这家原本籍籍无名的公司,如今却成为GPU云计算领域的一颗新星,估值突破230亿美元。它的背后,是英伟达的深度支持。据悉,英伟达在2023年4月以20亿美元的估值收购了CoreWeave的部分股份,这一投资使得英伟达成为了CoreWeave的最大投资者之一。
可以预见,CoreWeave只是开始。未来,英伟达可能复制这一模式,扶植更多的“嫡系”玩家。这些新兴云服务商将成为英伟达布局云市场的重要棋子,逐步渗透并改变云计算市场格局。
这种模式堪称“曲线救国”的典范,英伟达并未直接进入云市场,而是通过支持像CoreWeave这样的新兴玩家间接渗透市场。更妙的是,这种策略甚至并不需要英伟达大规模砸钱。通过“折算投资”——用打折的GPU资源换取成长股权,英伟达不仅保住了硬件销售的基本盘,还能从新兴云服务商的成长中分享红利。
事实上,现在很多云厂商投资大模型创业公司,用的就是这个“套路”——用算力折算成投资的股份。比如,微软对OpenAI的投资,阿里云对月之暗面的投资,大部分都是折算的算力资源。微软、阿里云可以用这个策略,英伟达当然也可以用。
而且,英伟达要扶持“嫡系”,靠的不只是硬件支持和资本扶持,而是打造一个全面深度绑定的生态体系。
英伟达不只是卖硬件,更提供差异化的技术支持。针对“嫡系”云厂商,它可以提供定制版CUDA、专用优化芯片甚至专属的软件堆栈,让这些玩家在性能和成本上比其他竞争者拥有明显优势。这种深度绑定,确保了“嫡系”云服务商不仅依赖英伟达的硬件,更被牢牢锁定在英伟达的技术生态中。
更进一步,英伟达完全有能力为这些“嫡系”玩家打通硬件、软件和算力需求,从GPU采购、数据中心优化,到AI模型部署,英伟达可以提供一站式解决方案,让这些新兴玩家能够迅速抢占市场。这种全链条式的支持,构建了一个围绕英伟达核心技术的“云生态体系”。
通过扶持“嫡系”,英伟达的最终目标是什么?显然不是做一个看客,而是利用这些代理人逐步撼动传统云厂商的市场地位。
短期内,这些“嫡系”玩家将专注于高性能计算领域。AI模型训练和推理对算力需求的爆发式增长,为新兴GPU云服务商提供了绝佳机会。通过提供优化的GPU算力服务,这些公司能够迅速在AI领域建立优势。
但从长期来看,英伟达不会满足于只做AI领域的幕后操控者。这些“嫡系”云服务商一旦站稳脚跟,必然会逐步扩展业务范围,从高性能计算走向通用云计算市场。通用计算市场是AWS、Azure等传统巨头的主战场,一旦这些新兴玩家进入,将形成直接竞争,蚕食巨头们的市场份额。
更深层次的意义在于,这些“嫡系”玩家的崛起,将重塑云计算的游戏规则。以往,云计算的核心竞争力在于数据中心规模和云操作系统,但未来,高性能算力可能成为市场新的分水岭。而英伟达通过“嫡系联盟”,将主导这一新兴力量,从幕后掌控云市场的核心。
这种隐秘的“曲线救国”策略,不仅是对现有市场格局的一次精准打击,更是对英伟达自身业务模式的一次战略升级。
未来几年,我们很可能会看到越来越多类似CoreWeave的公司崛起,成为云计算市场中的重要玩家。背后,是英伟达那只无形的手,将算力市场的权力结构悄然改写。
四、AWS、Azure、GCP们,会如何反击?
当然,AWS、Azure和Google Cloud(GCP)这些云计算巨头,也不可能坐以待毙,他们多年构建的壁垒,也不是那么容易攻破的。
面对这一挑战,巨头们采取了几条潜在的反击路径。
一是自研芯片,试图摆脱对英伟达的依赖。
AWS的Inferentia和Trainium、Google Cloud的TPU,都是这一战略的具体体现。这些定制芯片专为AI任务设计,能够在一定程度上降低对英伟达GPU的需求。尤其是TPU,已成为Google在AI领域的重要武器,支撑着Bard等自家AI产品的大规模训练和推理。
但自研芯片并非一条轻松的路,这些芯片的性能和生态仍然无法与英伟达的GPU抗衡。CUDA作为行业标准,已经在开发者中形成了深度绑定。即便TPU或Trainium性能上接近甚至超越英伟达,客户也需要付出高昂的迁移成本。自研芯片的研发和生产周期漫长,无法快速响应市场需求。
二是通过联盟策略联合其他芯片玩家,共同抗衡英伟达。
AWS和Azure已经加强与AMD、Intel的合作,尝试在GPU以外的领域扩展算力选择。比如,AMD的MI系列GPU和Intel的Xe架构,也在尝试进入高性能计算和AI训练市场。这种多供应商策略,不仅有助于分散风险,也让传统云厂商在与英伟达博弈时有了更多筹码。
尽管如此,传统巨头的这些应对仍显被动。它们在AI计算领域的核心竞争力,与英伟达及其“嫡系联盟”相比,正逐渐失去优势。
从目前的趋势来看,云计算市场可能正迈向一个新的竞争阶段。从原本的头部巨头垄断,逐渐走向“多极化竞争”。
在这个多极化的市场中,传统巨头依然在通用云计算领域占据主导地位,但在高性能计算和AI云服务领域,新玩家的崛起将逐渐改变市场格局。CoreWeave、Lambda Labs等新兴玩家,将依托英伟达的技术支持和市场策略,抢占一部分原属于传统巨头的市场份额。
与此同时,英伟达在这场变革中,将从幕后操控者变成最大的受益者。通过扶持“嫡系”,它不仅可以间接控制GPU云服务市场,还能通过技术和生态锁定更多客户,进一步巩固自身在算力分发中的核心地位。算力将成为云计算的命脉,而英伟达将掌控这条命脉。
这意味着,未来的云计算市场不再只是巨头之间的直接竞争,而是巨头、芯片供应商以及新兴玩家之间的多方博弈。这场博弈,最终将决定云计算市场未来十年的格局。
五、谁将成为“中国版CoreWeave”?
在全球GPU云计算市场波涛暗涌的背景下,中国市场正显现出独特的潜力和挑战。尽管中国云计算市场已由阿里云、腾讯云、华为云等巨头掌控,但在高性能GPU云服务这一垂直领域,局面尚未固化。
一个关键的问题是,谁将成为中国版的CoreWeave,抓住这波AI算力爆发的红利?
目前,GPU云服务在中国尚处于初级阶段。虽然三大云巨头都已布局AI计算,但它们更倾向于将GPU云服务作为自身云生态的一部分,而非核心业务。这导致市场上缺乏类似CoreWeave这样专注于GPU云服务的专业化公司。
与此同时,中国市场对AI算力的需求正呈现爆发式增长。大模型训练、自动驾驶、医疗影像等领域对高性能计算的需求持续攀升,而现有的通用云计算平台在算力、灵活性和优化深度上难以满足这些需求。这种供需错配,为新兴GPU云服务商提供了巨大的市场空白。
在中国市场,潜在的CoreWeave式玩家将主要从以下两类公司中涌现。
第一类是专注于AI计算的创业公司。
这些公司专注于AI模型训练和推理场景,拥有灵活的商业模式和高度专业化的技术能力。相比传统云巨头,它们能够更快地响应客户需求,提供更具针对性的GPU算力服务。随着英伟达或其他GPU厂商的深度支持,这些创业公司完全有可能在短时间内迅速崛起。
目前市场上已经出现了一些这样的初创企业,例如某些聚焦于自动驾驶训练平台的公司,正在通过整合英伟达GPU资源,为AI模型提供端到端的训练解决方案。这些公司最大的优势在于,能够绕开传统云厂商的“大而全”模式,提供更灵活、更高效的定制化服务。
第二类是头部云厂商的“嫡系”合作伙伴。
类似于CoreWeave与英伟达的关系,国内的阿里云、华为云等巨头,也可能扶植自己的GPU云服务合作伙伴。通过定向投资、技术支持甚至业务倾斜,这些“嫡系”云厂商能够迅速获得市场份额。
例如,华为云已与部分AI初创公司合作,共同推出基于Ascend和英伟达GPU的混合算力解决方案。这种合作模式不仅帮助初创企业降低了进入市场的成本,也让头部云厂商在高性能计算市场中获得了更深的渗透。
无论是创业公司还是“嫡系”合作伙伴,成功的关键在于是否能够大规模整合GPU资源,同时通过优化技术最大化这些资源的利用率。这种能力将直接决定其在高性能计算市场中的竞争力。
新兴GPU云服务商的崛起,注定会对中国的云计算市场格局产生深远影响。
它们将迅速填补国内高性能计算的供需缺口,为AI、大数据等前沿领域提供强大的算力支持。与传统云巨头相比,这些新兴玩家更加专注、更加灵活,能够为AI初创公司和科研机构提供更高性价比的算力服务。这种差异化的竞争策略,将帮助它们在短时间内吸引大量客户。
然而,传统云巨头也不会坐以待毙。面对新玩家的崛起,阿里云、腾讯云、华为云可能会进一步加强GPU云服务的布局,优化自身产品线,并通过并购或战略合作,将这些新兴玩家纳入自己的生态系统。这将使中国的云计算市场从“巨头独大”逐步演变为“巨头与新势力并存”的格局。
综上,云计算的权力游戏正在发生深刻转变,从“资源为王”到“算力为王”,新一轮博弈已经打响。英伟达凭借GPU技术和“曲线救国”策略,正在悄然改写规则。它不必直接下场,就能通过“嫡系”玩家在云计算市场中大展拳脚。而传统云巨头,尽管手握庞大数据中心网络,却在高性能计算的浪潮中显得步履沉重。
中国市场同样暗流涌动,谁能成为下一个CoreWeave,将决定未来的竞争格局。这是一场关于算力、技术和策略的多维较量,谁能最终主宰,尚未见分晓。但可以确定的是,未来属于那些掌控算力的人。