本文来自微信公众号“天翼智库”,作者/魏玥。
依据IDC发布的《中国智算服务市场(2023下半年)跟踪》报告,我国智算服务市场的增量几乎全部来自GenAI IaaS和智算集成服务。其中,GenAI IaaS市场由火山引擎、阿里巴巴和商汤科技等引领,智算集成服务市场则是华为一家独大,呈现出与公有云和IT集成服务截然不同的市场格局,但又遵循着与云服务类似的发展规律。
我国智算服务市场格局
据IDC统计,2023年下半年,我国智算服务1市场整体规模达到114.1亿元,同比增长85.8%。其中,GenAI IaaS市场呈0到1式增长,规模达到32.2亿元,为整体智算服务贡献了59%的增量;Non-GenAI IaaS市场缓慢增长至45.9亿元,仅贡献3%的增量;智算集成服务2受各地政府大力推进智算中心建设等因素驱动,市场规模达到36.0亿元,同比增长129.4%,贡献了38%的增量。
竞争格局方面,火山引擎、商汤科技和华为的表现引人注目。
GenAI IaaS市场:火山引擎、阿里巴巴、商汤科技、百度和腾讯占据前五位,份额合计约70%,市场集中度与公有云IaaS相近。其中,火山引擎和商汤科技这两家并不属于公有云第一梯队的厂商,份额分别达到21%和15%,这意味着生成式AI或将催生新的云巨头。
智算集成服务市场:华为、新华三、百度、寒武纪和中国电子云占据前五位,份额合计约55%,市场集中度远高于IT咨询与集成服务以及定制化开发服务等市场(CR5仅为15%~20%)。其中,华为独占超过45%的份额,成为绝对霸主;百度、寒武纪、中国电子云等主营业务各异的非传统系统集成服务厂商,也分别取得了2%上下的份额。这或许说明与传统IT服务相比,智算集成服务更加要求供应商在资源和服务等方面拥有差异化优势。
TOP厂商的核心竞争力
1.火山引擎:背靠字节跳动,火山终于“爆发”
作为字节跳动旗下的云厂商,火山引擎依托丰沛智算资源、领先万卡集群和开放模型平台等在2023年实现高速扩张,同比增速超过150%,并正通过进一步激发应用生态为增长飞轮注入更多动能。
丰沛智算资源:在人工智能被打上“落地变缓”“负增长”等这些标签的2022年,火山引擎为满足抖音等字节跳动自有业务,以及自动驾驶和生物信息计算等新兴领域头部客户的需求,持续囤积智算资源,顺理成章地在生成式AI爆发且算力供不应求的情况下,成为了智谱AI、月之暗面、Minimax、零一万物和百川智能等一众AI初创公司的算力底座。
万卡集群技术:随模型参数量从千亿迈向万亿,以及推理需求不断增长,大模型的算力要求升级,高效率且高稳定的万卡集群成为新一轮智算基础设施竞赛的必选项。字节跳动联合北京大学发表论文3,针对在万卡集群上训练大模型的效率和稳定性问题提出MegaScale生产系统。论文显示,在12288块GPU上训练1750亿参数大语言模型时,MegaScale实现了55.2%的算力利用率(MFU),是英伟达Megatron-LM的1.34倍。
开放模型平台:与阿里云、百度智能云等先卷大模型不同,火山引擎首先将汇聚和开放第三方大模型作为重点,推出火山方舟MaaS平台。通过搭建模型需求端和供给侧间的桥梁,火山引擎在帮助模型厂商拓展客户的同时也实现了自身收入增长。
激发应用生态:随AI大模型的普及度和渗透率不断提升,推理工作负载将远大于训练工作负载。火山引擎看准这一趋势,将字节跳动豆包大模型的推理输入价格降至0.8厘/千tokens,以期降低客户试错成本,繁荣AI应用生态。
2.商汤科技:大装置发挥大作用
商汤科技2014年以视觉AI起家,2018年开始打造由模型层、深度学习平台和计算基础设施等三部分构成的AI基础设施——SenseCore商汤AI大装置。依托大装置,商汤科技不仅对外提供丰富的AI云产品和行业解决方案,也实现了自有“日日新”大模型体系的高速迭代。在“大装置+大模型”驱动下,商汤科技2023年生成式AI收入突破11.8亿元,同比增长近200%。
前瞻性布局智算中心:商汤科技2020年起陆续在上海、深圳、广州、福州、济南和重庆等多地建设智算中心,截至2023年底,上线GPU数量达到45000张,总运营算力达到12 EFLOPS。其中,上海临港智算中心于2020年启动建设,2022年正式运营,24年4月算力规模达到8.1 EFLOPS,位居我国乃至全球前列。
打造高效稳定万卡集群:商汤科技已实现万卡互联,集群线性加速比超过90%,同时保证超30天稳定训练不间断和训练间断半小时恢复。
高性价比推理服务:商汤科技2023年将推理服务性价比提升300%,大幅降低大模型推理单位成本。
3.华为:领先芯片和全栈服务显身手
领先AI芯片:在美不断升级对华半导体出口管制和我国信创进程加速的背景下,华为昇腾910B作为少数可与英伟达A100等海外高端GPU抗衡的国产AI芯片之一,是华为得以拿下众多智算中心建设项目的杀手锏。
全栈智算服务:基于30余年的ICT服务经验,华为已形成从规划、集成、运维到模型使能和人才培养等的端到端智算集成服务,帮助客户建好和用好智算基础设施。
运营商竞争策略
回顾云服务发展历程,1.0阶段,亚马逊和阿里巴巴等互联网大厂将自有资源和技术向其他互联网企业开放,顺利打开市场;2.0阶段,中国电信等运营商抓住政企上云机遇,凭借不断提升的技术实力和长年累积的服务经验实现规模扩张。
如今,智算服务1.0因“百模大战”开启,火山引擎和商汤科技等对智算资源和技术早有储备的企业占得市场先机。面对将由行业大模型带动的智算服务2.0,运营商已从资源、技术、产品和服务等多方面做好准备,如中国电信规划并建设覆盖全国的“2+3+7+X”公共智算云池,打造国产万卡智算集群,加快构建“息壤”一体化智算服务体系和能力等。
然而,由于其他智算服务提供商,如AI企业、互联网/云厂商和其他央国企等,多同样具备政企服务经验,因此运营商在智算服务2.0将面临比云服务2.0更为严峻的竞争环境。建议:
一是强化安全可信,针对在AI时代被进一步放大的数据(含算法、代码等)隐私与安全问题,依托机密计算4等技术,打造可在AI全生命周期内保障数据和模型等的机密性与完整性的智算基础设施,让客户安心使用AI IaaS;
二是繁荣模型生态,秉持开放共赢理念,帮助自研和第三方模型、MaaS平台与AI应用等触达客户;
三是升级集成服务,理解与把握政企客户对智算基础设施的当下和长远需求,提供从建到用再到后续升级的高水平全栈服务。
注释:
1.IDC将智算服务定义为以GPU、FPGA、ASIC等AI专用算力为主的基础设施服务,主要包括智算集成服务和智算基础设施即服务(AI IaaS)。其中,AI IaaS市场又分为面向生成式AI的GenAI IaaS和面向渲染、仿真、视联网推理等非生成式AI的Non-GenAI IaaS等两个细分市场。
2.智算集成服务指厂商在帮助客户建设私有智算基础设施过程中提供的咨询、集成、开发、运维等专业和管理服务。
3.《MegaScale:Scaling Large Language Model Training to More Than 10,000 GPUs》。
4.机密计算是一种通过在基于硬件的可信执行环境(TEE)中执行计算来保护使用中的数据的技术。