本文来自微信公众号“技术领导力”,作者/Mr.K。
随着中国企业数字化建设的不断深入,如同土壤般存在的云计算服务,却在经历爆发式增长后,后继乏力,陷入增长率逐年下降的窘境,一些云厂商甚至还爆出裁员的消息。正在云计算苦寻新的增长着力点之际,扑面而来的AI浪潮,给这个苦苦挣扎的行业,送来了甘霖雨露般的滋润。
云计算一片狼藉的颓势,才得以扭转,并重新进入了增长快车道。K哥跟国内头部云计算厂商的高层都有联系,据悉今年各大云厂商都纷纷调高了KPI,阿里CEO吴泳铭甚至高调宣布,阿里云有望重回两位数的增长。为何会出现如此戏剧性的冰火两重天?下面K哥就和大家聊聊AI大模型时代下的云计算。
01
听说AI大模型不挣钱,云厂商笑了
1、AI未动,云计算先行
任何一次技术革命的到来,都会引发整个产业链的洗牌和重构。在这个过程中,最先从中获益的,也许并不是直接参与技术创新的企业,而是那些为创新企业提供基础设施和底层支撑的公司。
回看当初互联网发轫、蓬勃的时代。虽然网景、雅虎等互联网先驱,一马当先拉开了新时代大幕,构筑了网络世界的基本理念和商业模式,但在那个时代真正大赚其钱并笑到最后的,并不是他们,而是英特尔、戴尔、惠普等服务器和网络硬件厂商。在整个互联网的黄金岁月,这些搞网络建设的企业,一直都比那些看似风光的互联网企业活得安稳且滋润。直到今天,英特尔、戴尔、惠普依然稳居世界500强之列,而网景和雅虎们却或倒闭或被收购,早已风光不再。
同样的逻辑延续到了移动互联网时代。随着智能手机和社交、流媒体、移动支付、电子商务等移动应用的兴起,IDC(互联网数据中心)行业迎来了千载难逢的发展良机。亚马逊AWS、微软Azure、阿里云等全球领先的IDC提供商,都是在这一时期快速发展并建立了自己的先发优势和规模优势。
进入AI时代,情况依然如此。AI技术的兴起,催生了各行业对算力、存储、网络等基础设施的全新需求,而最先从中获益的,依然是那些提供相关基础设施的公司。一个最典型的例子就是英伟达。这家GPU制造商的股价竟然冲到了1255美元/股的离奇高位,市值一度超过微软和苹果,成为全球市值最高的公司。
为AI算力、数据存储和处理带来巨大助力的云计算厂商,在这波科技浪潮中也同样获得了极为关键的发展机遇。以国内的“几朵云”为例。连续亏损12年的阿里云,到2022财年开始走上扭亏为盈之路,从上一年的亏损22.51亿元,突飞猛进为盈利11.46亿元。2023年,阿里云继续保持增长势头,全年营收1053亿元、经调整EBITA利润约50亿元。百度智能云,则是在2023年一季度首次实现盈利,收入同比增长8%至42亿元;此后继续增长,持续盈利。华为云同样在近两年实现快速增长,2021年营收为201亿元,2022年就以225%的增速,实现了年营收453亿的跨越。2023年,华为云营收进一步增长至553亿,市场份额也在进一步扩大中。
不言而喻,这几朵“云”几乎集中在同一时期“绽放”,无疑都得益于AI高速发展、AI基础设施猛增、云服务需求爆发的时代机遇,和互联网、移动互联网时期的“基建”服务商们享受的时代红利,如出一辙,毫无二致。
2、“黄氏定律”下的AI算力革命
当前,AI正处于一个前所未有的大发展时期。随着大规模语言模型、大型视觉模型等基础模型的不断涌现,AI技术正在以惊人的速度向更广泛的应用领域渗透。而推动这一进程的关键,正是不断快速提升的算力。黄仁勋所提出的“黄氏定律”,就是对AI算力提升所做的预测,他认为GPU将推动AI性能实现逐年翻倍。我们可以通过ChatGPT的演进,更直观地了解AI发展对算力升级的“苛刻”要求:最开始ChatGPT的模型规模是1.5亿个参数,到了ChatGPT-3.5,模型规模就暴涨到了1750亿个参数,而到了ChatGPT-4.0,模型规模更是夸张到了1万亿个参数。
而在超大算力需求的背后,是难以想象的巨额成本。仅从目前来看,入局大模型的门票,已经到了至少几十亿起步的疯狂程度,如果再“飙升”下去,应该没多少人能玩得起了。而云计算及其具备的优势,则成了很多想继续留在牌桌的玩家的救命稻草。它们不仅能够为AI模型提供强大的算力支持,帮助AI模型快速训练和部署,还可以提供按需付费的计算资源,大大降低算力成本,成为AI企业梦寐以求的降本增效利器。
02
大模型重塑云服务新范式
随着大模型在各行业、各场景的普遍应用,云服务商必须与时俱进,不断优化或重构自己的服务模式、业务模式,以适应市场和时代的新需求。
1、更加灵活的算力调度
大模型对海量算力资源的需求,不断倒逼云计算服务要具备更多的弹性和灵活性。以GPT-4和GPT-3的训练为例,正如前面提到的,两者算力需求差距就有6倍之多,面对如此巨大的算力波动,如果还以传统的静态算力部署方式,显然无法满足实际需求。此时,云计算按需付费、弹性伸缩等优势,就有了极大的用武之地。用户可以根据训练阶段的不同,灵活调整租用算力的规模,充分利用云端算力池,避免算力闲置浪费。
此外,云厂商还将整合各家GPU,实现万卡互联、资源统一调度,进一步提升算力利用效率。比如华为云"Atlas"的硬件平台,整合了自主研发的昇腾AI处理器,为大模型训练提供了强大的算力支持。不仅能够满足不同应用场景下的算力需求,还为用户打造了一站式的算力服务。
2、异构计算成为主流
随着大模型对算力的需求越来越多样化,单一采用CPU或GPU都越来越难实现最佳效果。因此,同时支持CPU、GPU、DPU等异构加速器的计算平台,将成为大模型所需的主流架构。谷歌大模型Gemini就是构建在公司自研的"AI超级计算机"之上,后者采用了异构计算架构,既包括CPU和GPU,也集成了谷歌云自主打造的超大规模TPU集群。通过这种异构设计,Gemini可以在不同计算阶段,灵活切换到最优算力形态,充分发挥各种加速器的长处,展示了异构计算的巨大潜力。
3、便捷的大模型部署平台
为了简化大模型的部署流程,各云厂商不断推出专属的大模型云服务应用MaaS。比如,微软Azure ML平台推出的专门面向GPT大语言模型需求的云服务,用户只需调用相关API,就可以轻松部署和微调预先训练好的大模型;除了支持在线推理服务,还提供一键式训练工具,帮助用户根据需求定制模型规格。
亚马逊AWS的SageMaker服务,也为大型语言模型提供了全生命周期管理工具。研发者可用它进行大模型的训练、微调和部署,并且与AWS的其他服务无缝集成。国内的华为云则在其ModelArts平台上推出了“昇思大模型服务”,支持跨平台的模型部署与推理,用户可一键式远程调用昇思NPU芯片的海量算力,大幅缩短推理等待时间,避免在本地部署NPU芯片的繁重操作。
03
AI时代,选择云厂商的底层逻辑
人工智能时代的到来,正在重塑企业对云计算的需求形态。企业不仅要求云计算要灵活、有弹性、具备极高的成本效益,还要能为他们带来更多创新和竞争优势。因此,企业在选择云厂商时,需要做更多方面的考量:
1、大模型的一站式管理
面对大规模繁复的大模型应用场景,企业会优先关注云厂商提供“一站式管理”的能力。毕竟,大模型训练和部署环节的复杂程度极高,企业很难自己搭建一整套完备的流程链路。相反,如果云厂商可以为各种主流大模型提供一键部署、弹性扩缩容、低成本微调等全生命周期管理,无疑将极大缩减企业的运维成本,成本更受企业青睐的“心头好”。
2、对多模态的全方位支持
随着AI应用场景的日益丰富,多模态大模型能够同时处理视频、图片和文本等多种数据类型的能力,对企业来说变得越来越重要。因此,云厂商需要对这些大模型提供更全面的支持,不断强化对图片、视频、时序等多源数据的端到端处理能力,从而帮助企业实现更高效的内容分析和智能决策。
3、AI云原生应用部署友好
企业还会格外重视云服务商在支持AI云原生应用部署方面的友好程度。很多企业开发的AI应用或SaaS产品,本身就是按照云原生的架构设计的,如果云厂商能提供更加贴近云原生场景的优化支持,将大大提升部署效率。比如,阿里云就在其公有云平台上,针对云原生应用的全生命周期管理进行了优化,包括容器服务、无服务器架构、Serverlessm等一系列举措,让开发者能以更加丝滑流畅的方式,构建和部署云原生AI应用。
4、企业数据资产的保障
数据是企业的核心资产,在AI时代,企业需要云厂商提供强大的数据存储和管理解决方案。这就要求云服务器具备云原生数据库、向量数据库等数据基础设施能力,确保企业的数据资产在上云的过程中不会遭到泄露或丢失。
5、强大的云安全体系
大模型所带来的数据隐私、算力资源滥用等潜在风险,会迫使企业把云服务商云安全体系是否完备,当成做选择时的重要参考指标。在数字化转型的过程中,企业对数据安全和隐私保护的要求会变得越来越高。云厂商只有具备强大的云安全体系(包括数据加密、网络安全、身份认证等多层次安全措施)才有可能入客户的法眼。而拥有成熟云安全体系和合规管控手段的云厂商,也才能在激烈的市场竞争中脱颖而出。
云计算无疑是做大模型的最佳选择。换个角度看,大模型又何尝不是云计算的“回春丹”?今天的大模型与云计算,像极了当年的淘金者与卖铲人,也许只有“双赢”,才是最不辜负这个时代的理想结局。