本文来自微信公众号“AI芯天下”,作者/方文三。
对于一些高新科技企业而言,核心的技术数据是其生命线。
过度依赖进口服务器等同于将自己的生命主动权完全交给别人。
因此,服务器国产化的重要性不言而喻。
服务器市场正迎来代际升级
服务器作为数据处理和存储的核心部件,其性能直接决定了整个信息系统的运行效率。
随着Al大模型应用的加速落地和智算中心建设的加速,国内外厂商对算力的需求不断提升,Al服务器的需求量也大幅增加。
据IDC预测,2023年市场规模将达到248亿美元,同比增长27%。
根据北京研精毕智信息的最新数据,2022年全球Al服务器行业市场出货量达到了85万台。
根据TrendForce的预估,2023年全球Al服务器出货量将接近120万台;
到2025年,这一数字将增长至近190万台,2022-2025年的复合年增长率(CAGR)为41.2%。
AI服务器主要采用并行计算的芯片,如GPU、FPGA等,以适应AI时代的算力需求。
这些芯片的应用,使得AI服务器在组成部件上与普通服务器差异不大,但性能却有显著的提升。
根据IDC发布的市场跟踪报告,2022年中国服务器市场规模达到273.4亿美元,同比增长9.1%,占全球市场份额的24.5%。
中商产业研究院预测,到2023年,中国服务器市场规模将增长至308亿美元。
国内将首要关注新兴服务器芯片领域
和PC一样,服务器核心芯片主要包括CPU、GPU,随着大数据催生多元算力新计算架构,DPU逐渐成为数据中心的第三颗主力芯片。
相比训练,模型的部署是更大的市场。应用对于服务器的最大承载能力要求在于过峰,即满足PCU时刻的访问需求。
据此测算,国内由AI带动的服务器需求量约为5万台-16.6万台,芯片为50-166万颗。
假设全球活跃用户体量为国内用户体量的3倍,则全球服务器需求量为15-50万台,芯片需求量为50-500万颗。
从产业发展现状来看,X86服务器领域国内厂商差距较为明显。
ARM、RISC-V为代表的新兴服务器芯片及DPU为代表的新应用产品未来有望在云端市场占据一定空间。
中金测算,AI服务器核心组件按价值量由高到低依次为GPU、DRAM、SSD、CPU、网卡、PCB、高速互联芯片和散热模组等。
按7.5万台训练型和17.5万台推理型服务器测算,对应市场规模分别为240亿美元、88亿美元、48亿美元、34亿美元、5亿美元、3亿美元、2.5亿美元和1.5亿美元。
内存接口芯片作为提升内存数据访问速度和稳定性的关键部件,其市场需求也将随之增长。
目前,内存接口芯片仅用于服务器内存模组,为服务器的大容量、高速率、高稳定性等性能提供重要保障。
澜起科技以内存接口芯片为核心,不断拓展高速互连芯片品类,迭代开发CPU、AI等高性能计算芯片,深度融入服务器生态系统,充分受益于高速成长的服务器产业。
其[1+9]分布式架构,这一创新性技术解决了传统集中式架构存在的功耗高、大容量与高速率之间冲突的问题,并被JEDEC国际标准所采纳。
随着内存模组迎来新旧世代切换,澜起科技的产品有望迎来新的发展机遇,其PCIe Retimer芯片、MXC芯片和MCR接口芯片等新产品。
专注于PCB产业的沪电股份,在AI超算服务器PCB市场上处于领先地位,预计5.0服务器主板的份额也将显著提升。
服务器芯片公司不会错过这样的发展时机
根据IDC 2018年服务器成本结构数据显示,芯片成本在基础型服务器中约占总成本的32%;
而在高性能或更强性能的服务器中,芯片成本占比高达50%—83%。
从产业发展的趋势来看,在国内服务器已逐渐占据一定市场份额的大背景下,加速实现服务器芯片的自主可控已是大势所趋。
当前,国产服务器CPU正处于关键时期,主流厂商包括海光、兆芯、飞腾、华为鲲鹏、龙芯和申威等六家领军企业。
以电信行业为例,2020-2022年国产CPU占比提升不断提升,其中海光和鲲鹏占据较大的市场份额。
海光最新一代CPU已接近国际同类高端产品水平,并兼容x86指令集,在电信、金融、互联网等领域具有显著优势。
海光CPU包括海光3000、5000以及7000系列,它们的技术设计同源,处理器核心等具有相似的技术特征。
图
飞腾与1600余家国内软硬件厂商打造完整生态体系,并已完成与6大类1000余种整机产品、2600余种软件和外设的适配。
基于飞腾桌面CPU的终端已形成较为完整的生态图谱,可覆盖从整机硬件、基础软件到上层的应用。
今年4月,龙芯推出2023款HPC CPU:3D5000,拥有32核高达2 GHz和300W TDP,据称比典型Arm芯片快4倍。
龙芯3D5000的推出,进一步满足了数据中心对性能的需求,也标志着龙芯中科在服务器CPU芯片领域进入国内领先行列。
国内企业开始部署RISC-V芯片
在今年的10月份,山东大学成功部署了基于RISC-V CPU的服务器集群,该系统拥有3072个核心,并配置了48个64位RISC-V CPU节点。
据阿里巴巴生态系统总监陈大伟在RISC-V峰会上发表演讲时透露,这是RISC-V集群首次在云端部署,目前该系统主要用于山东大学的教学和科研项目,部分功能也可用于商用云计算。
山东大学的RISC-V系统采用了国内某公司的SG2042芯片,该芯片主频达到2GHz,并配备64MB缓存。
今年早些时候,该公司发布了RISC-V芯片,阿里巴巴与其合作将Linux操作系统引入该服务器集群。
中国科学院(CAS)正在与阿里巴巴、腾讯和中兴通讯等本土顶尖企业合作开发名为[香山-v3]的RISC-V芯片。
国内相关企业和科研机构正在开发专门用于RISC-V芯片设计的开源EDA工具。
国内服务器厂商与芯片厂商共同推进
基于供应受限的背景,服务器龙头们过去半年来一边继续做GPU服务器的开发;
另一方面纷纷采取开放架构,兼容国产自主创新芯片。
比如浪潮信息就推出了开放加速计算架构,据称具有大算力、高互联和强扩展的特点。
基于此,浪潮信息发布了三代AI服务器产品,和10余家芯片伙伴实现多元AI计算产品落地,并推出AIStation平台,可高效调度30余款AI芯片。
还有一些服务器厂商则绕过GPGPU路线,另辟蹊径从自主创新硬件落地AI服务器。
比如,8月,科大讯飞与华为联合发布的讯飞星火一体机,基于鲲鹏CPU+昇腾GPU,采用华为存储和网络提供整机柜方案,FP16算力达2.5 PFLOPS。
对比来看,在大模型训练中最为流行的英伟达DGX A100 8-GPU,可以输出5PFLOPS的FP16算力。
结尾:
在经历多次起起落落之后,服务器芯片领域有望在不久的将来迎来新的变革。
在这个不断变化的环境中,机遇与挑战并存,未来的格局充满未知。
在这个关键时刻,AI服务器厂商需要证明他们在产业链中的疏通能力,以应对供应链风险并与上下游合作伙伴形成强大的联盟。