本文来自微信公众号“半导体产业纵横”,作者/畅秋。
有越来越多的互联网和IT设备大厂开始自研AI服务器芯片,最近,这一风潮吹到了苹果公司,据悉,该智能设备龙头正在开发用于AI服务器的定制芯片。
与微软和谷歌等竞争对手相比,苹果在推出生成式AI方面进展较慢,不过,苹果公司CEO库克称,AI已经在苹果产品的幕后发挥作用,此前有媒体报道,苹果计划使用AI来提高搜索存储在苹果设备上的数据的能力。
今年2月,库克在年度股东大会上表示,使用苹果AI技术的功能包括Vision Pro的手部跟踪工具和Apple Watch的心率警报。他还表示,MacBook中的芯片能够运行AI。
库克表示,今年晚些时候,将与大家分享如何在生成式AI领域开辟新天地。苹果公司通常在6月份的年度开发者大会上宣布新的软件产品和功能。
知名分析师郭明錤在2023年10月发布的一份报告显示,预计苹果在2023和2024年分别采购2000–3000台、1.8万–2万台AI服务器,分别占同期全球AI服务器出货量的1.3%和5%。估算苹果在2023和2024年需要分别支出约6.2亿和47.5亿美元,用于AI服务器采购。
基于苹果产品的功能需求,以及庞大的AI服务器资本支出,再结合该公司自研芯片的历史,相信其自研AI服务器芯片是早晚的事,特别是苹果放弃造车,将资金和资源重点投入到AI技术和产品研发上,自研AI服务器芯片就更加顺理成章了。
01
AI服务器芯片的重要性
据统计,2024年,全球服务器出货量约1365.4万台,其中,各家ODM的出货以AI服务器最为强劲。分析师指出,2024年,AI服务器出货年增长率和占比都将达到两位数,这主要得益于生成式AI市场的增长。
预计生成式AI市场规模将从2022年的400亿美元增长到2032年的1.3万亿美元,年复合增长率高达41.7%。由于全球生成式AI市场商机与增长潜力巨大,对训练AI系统的软硬件需求量很大,使得市场对AI服务器及相关芯片的需求不断增长。
AI大模型迭代速度越来越快,厂商对智能算力的投入大幅增加,支持存储和训练的高端AI服务器的需求激增,2023和2024年,大模型训练所需数据量激增,AI大模型厂商需要的是能够支持存储和训练的高端AI服务器,因此,各服务器厂商都在升级芯片规格、扩大卡组数量。
与传统服务器相比,AI服务器在多个方面有所不同。硬件方面,AI服务器采用异构形式,内存容量更大,可满足不同场景需求;卡的数量方面,由于AI服务器需要大量计算,至少配置4个GPU卡,有的需要8个;系统结构方面,AI服务器在散热、拓扑等方面进行了专门设计,以实现稳定运行。
02
自研AI服务器芯片热潮
根据应用场景不同,AI服务器可分为深度学习训练型和智能应用推理型;根据计算模块结构不同,AI服务器可分为CPU+GPU、CPU+ASIC、CPU+FPGA等,其中,最常见的是CPU+多块GPU组合模式。
虽然AI服务器计算系统主要由CPU和GPU组成,但就目前而言,GPU占据了较大市场份额,CPU份额相对较小。在这种情况下,GPU厂商的行业地位就很凸出了。然而,虽然市场很大,但能够提供高性能GPU的厂商却很少,目前,能够形成一定市场规模的厂商只有3家:英伟达,AMD和英特尔。
基于这种市场供求关系,对AI服务器具有很大需求量的互联网和IT设备大厂纷纷开始自研相关芯片,如亚马逊AWS,谷歌,Meta,微软和苹果。
亚马逊AWS自研芯片始于2015年,当时收购了Annapurna Labs,2018年,AWS推出了基于Arm架构的Graviton处理器,这是其首款自研服务器芯片。2020年,AWS发布了Graviton2。2023年12月,AWS推出了Graviton4和Trainium2,Graviton4的性能比Graviton2提升了30%,Trainium2在AI训练速度上提升了4倍。
2016年,谷歌推出了自研的AI张量处理单元(TPU),这些专为机器学习设计的芯片为谷歌云平台上提供了AI加速能力,2022年前后,谷歌开始研发基于Arm架构的服务器CPU,2024年4月,谷歌发布了首款自研Arm构架CPU——Axion,并宣布该芯片已经在内部使用。
2020年,微软开始为其Azure云服务定制芯片,2023年11月,微软推出了两款自研芯片——Maia100和Cobalt100。Maia100是一款专为大语言模型训练和推理而设计的芯片,采用台积电5nm制程,Cobalt100是一款基于Arm架构的128核服务器CPU。
今年4月初,Meta发布了新一代AI训练和推理加速器MTIA,其计算和内存带宽是上一代产品的两倍多,最新版本芯片有助于驱动Facebook和Instagram上的排名和推荐广告模型。
03
自研AI芯片的好处
互联网和IT设备大厂自研AI芯片的核心动机是降低成本。当然,自研芯片的前提是自身有很大的需求量,否则自研没有意义。这些大厂的巨量规模能够分摊芯片研发成本,随着产量的增加,单位芯片的成本会降低。通过自研,这些大厂可以直接控制芯片的设计和生产成本,从而减少对外部供应商的依赖。这种成本控制能力使它们能够更有效地管理运营支出,提高整体利润率。自研芯片还可以优化供应链管理,减少中间环节,从而降低采购成本和物流成本。此外,自研芯片可以根据云服务的具体需求进行定制,避免不必要的功能和性能过剩,进一步降低生产成本。
通过自研芯片,这些大厂能够掌握更多的议价权和定价权,避免成为英特尔、英伟达等传统芯片商的“打工仔”。这不仅有助于提升利润空间,还能够在价格竞争中保持灵活性,根据市场情况调整定价策略。
自研芯片还可以帮助这些大厂完善软硬件生态系统,它们能够根据自家的业务需求和特点定制芯片,从而实现硬件与软件之间的无缝对接和优化。自研芯片还可以保持技术创新,随着云计算、大数据、人工智能的快速发展,数据中心面临的工作负载越来越多样化,自研芯片使这些大厂能够快速响应市场变化,及时推出符合新需求的产品和服务。
04
自研AI服务器芯片的难度有多大?
AI服务器芯片属于超大规模集成电路,除了需要大量资金投入,其设计和制造的难度都很大,需要能够精准把握技术路线选择,另外,在团队建设,以及与晶圆代工厂合作方面,需要具备业界顶级水平,才能把芯片做好。
AI服务器需要训练和推理两类处理器和系统,如何规划技术发展路线是关键,也就是说,是发展训练,还是推理,或是兼而有之,是不同的技术路线,这要考虑到市场现状及未来的发展情况。
训练芯片主要用于AI算法训练,即在云端将一系列经过标记的数据输入算法模型进行计算,不断调整、优化算法参数,直至算法识别准确率达到较高水平。推理芯片主要用于AI算法推理,将在云端训练好的算法模型进行裁剪、优化变“轻”之后,进入应用阶段,输入数据直接得出识别结果。
不同用途(训练和推理)、不同应用场景(端-边-云)对AI芯片有着不同的要求。训练芯片追求的是高性能(高吞吐率)、低功耗,推理芯片追求的是低延时(完成推理过程所需要的时间尽可能短)、低功耗。“端-边-云”这3个环节对AI芯片的要求也不同,在端和边上进行的大部分是AI推理,大部分的训练是在云和数据中心进行的,训练过程对时延没有什么要求,需要保证AI芯片在尽可能保证较高算力的情况下,功耗尽量低。
目前,英伟达GPU主导的AI训练市场最为火热,然而,随着AI应用的深入展开,巨大的推理芯片市场会逐渐展现出来,该市场比我们目前看到的要大得多,没有任何一家厂商的芯片能够满足这个市场需求。这就是前文提到的亚马逊、谷歌、微软,甚至英伟达自研CPU的原因所在。
有统计显示,AI芯片市场包括约15%的训练,45%的数据中心推理和40%的边缘推理。在这样的行业背景下,大厂自研芯片,必须找准方向,权衡好中短期和中长期应用需求,分配好训练芯片和推理芯片的研发投入。
芯片研发团队建设也很重要。
技术团队搭建,是一个长期积累的过程,需要时间,难度不小,因此,多家互联网大厂对芯片设计外包服务的依赖度较高,这恐怕只能解决短期、少量需求问题,长期来看,还需要技术积累和芯片团队建设。
下面看一下自研芯片大厂与晶圆代工厂的合作关系。
AI服务器芯片采用的都是最先进制程工艺,这方面,考虑到三星电子的先进制程(4nm和3nm)良率迟迟提升不上去,台积电几乎是唯一的晶圆代工厂选择。
根据专门研究半导体公司的金融分析师Dan Nystedt的估计,2023年,苹果公司占台积电收入的25%(175.2亿美元)。
2023年,台积电的前10名客户占其收入的91%,高于2022年的82%,这些公司包括联发科、AMD、高通、博通、索尼和Marvell。可以看出,没有一家互联网大厂,除了苹果,都是IC设计大厂。
多年来,苹果一直是台积电的头号客户,而且,在未来多年内将一直是台积电的第一大客户。据悉,苹果自研的AI服务器芯片将采用台积电的3nm制程工艺,将在2025下半年生产,那时,台积电的3nm制程将升级到“N3E”版本。
对于互联网和IT设备大厂来说,自研的AI服务器芯片,必须找到足够好的晶圆代工厂生产,要想保持长期、稳定发展,就必须对晶圆代工厂的制程工艺有足够的了解。这方面,与谷歌、亚马逊和微软相比,苹果具有先天优势,因为该智能设备巨头是台积电多年的第一大客户,双方有深入了解,能够更好地把握好芯片生产规模、良率、成本,可以实现无缝过渡。
05
芯片设计服务商机无限
如前文所述,互联网大厂自研AI服务器芯片,由于研发难度很大,这些大厂短时间内又难以形成有足够技术和经验积累的团队,因此,选择外包,找芯片设计服务合作伙伴就成为了不二选择。
例如,谷歌开发的两种Arm服务器CPU,其中一款代号为“Maple”,是基于Marvell的技术。
另外,谷歌自研的TPU用于取代英伟达的GPU,谷歌设计的芯片蓝图,都由博通进行物理实现。物理实现是将逻辑电路转换为有物理连接的电路图的过程,博通绘制好物理版图后,再送到台积电流片,流片成功后的芯片正式进入制造环节,整个过程都需要博通深度参与。
数据中心中成百上千个高性能处理器共同运作,它们之间的通信就成为了大问题,这也是当下数据中心性能损耗的主要来源。
博通是通信巨头,最善于解决通信带宽问题,在全球50GB/s的SerDes市场中,博通占据了76%的份额,其SerDes接口通过将低速并行数据转换为高速串行数据,然后在接收端转换回并行数据。通过这样的操作,数据可以从一个TPU高速转移到另一个TPU,大大提升了传输效率。
有了博通的帮助,谷歌自研芯片的项目进展速度明显加快了,TPU从设计开始,仅用15个月就部署进了数据中心。
随着大模型市场竞争快速展开,谷歌大幅增加了TPU设计服务订单,使博通一跃成为仅次于英伟达的AI芯片厂商,Semianalysis预估,AI芯片会在2024年给博通带来80亿~90亿美金的营收。
不止谷歌,Meta、亚马逊、微软等大厂都在加大自研AI服务器芯片的投入力度,找芯片设计服务外包合作伙伴的需求只增不减,此时,以博通、Marvell为代表的芯片设计服务公司的商机会越来越多。