本文来自微信公众号“数据中心运维管理”。
2024年剩余时间有望成为数据中心芯片市场繁忙的一年,因为竞争对手芯片制造商都在准备发布新处理器。
分析师表示,AMD和英特尔预计将推出新的竞争性数据中心CPU,而包括超大规模厂商和初创公司在内的其他芯片制造商计划推出新的AI芯片,以满足AI工作负载不断飙升的需求。比如英特尔在本周二确认其用于人工智能训练和推理的新型Gaudi 3人工智能加速器预计将于2024年第三季度全面上市,而Meta在周三宣布其下一代人工智能推理处理器现已投入生产并已在其数据中心使用。
Omdia数据中心IT首席分析师Manoj Sukumaran表示,虽然服务器销量预计将增长6%,从2023年的1080万台服务器出货量增长到2024年的1150万台,但2024年服务器收入预计将同比增长59%,这表明处理器仍然是一个热门且不断增长的市场。事实上,在未来五年内,服务器收入预计将增加一倍以上,到2028年达到2700亿美元。
“尽管单位出货量没有大幅增长,但收入增长相当快,因为这些服务器内部装有大量芯片,因此服务器价格大幅上涨,”Sukumaran告诉Data Center Knowledge。“这对芯片供应商来说是一个巨大的机会。”
协处理器是热门商品
数据中心运营商对“协处理器”有很大的兴趣——旨在补充和增强主处理器功能的微处理器。
Sukumaran表示,传统上,数据中心服务器市场以CPU为中心,CPU是通用服务器中最昂贵的组件。他表示,2020年只有超过11%的服务器拥有协处理器,但到2028年,预计超过60%的服务器将配备协处理器,这不仅可以提高计算能力,还可以提高效率。
Nvidia H100和AMD MI300 GPU、谷歌云张量处理单元(TPU)等协处理器以及其他定制专用集成电路(ASIC)很受欢迎,因为它们能够实现AI训练、AI推理、数据库加速、网络卸载和安全功能和视频转码,Sukumaran说。
分析师指出,视频转码是一个使Netflix、YouTube和其他流媒体能够优化从电视到智能手机等不同用户设备的视频质量的过程。
AMD和Intel与ARM CPU的CPU市场仍然利润丰厚。英特尔仍然是市场份额的领先者,但来自初创公司Ampere和其他云服务提供商的AMD和基于Arm的CPU近年来已经削弱了英特尔的主导地位。
Omdia的数据显示,虽然英特尔拥有61%的CPU市场份额,但AMD已经获得了显著的吸引力,从2020年服务器出货量的不到10%增长到2023年的27%。Arm CPU去年占据了9%的市场份额。
Sukumaran表示:“过去几年,Arm软件生态系统已经相当成熟,Arm CPU的低功耗和高核心密度对云服务提供商很有吸引力。”
事实上,谷歌云周二宣布其首款基于Arm的CPU(称为Google Axion处理器)将于今年晚些时候向客户提供。
英特尔今年的目标是通过发布下一代服务器处理器来重新在CPU市场站稳脚跟。带有E核的全新英特尔至强6处理器(之前代号为“Sierra Forest”)预计将于2024年第二季度上市,专为需要功效和性能的超大规模企业和云服务提供商而设计。
紧随其后的是推出带有P核的全新Intel Xeon 6处理器,以前的代号为Granite Rapids,主打高性能。然而,AMD并没有坐以待毙,计划发布名为Turin的第五代EPYC CPU。
Moor Insights&Strategy副总裁兼首席分析师马特·金博尔(Matt Kimball)表示:“AMD毫无疑问是性能领先者,并且在从英特尔手中夺取市场份额方面表现出色。”几乎所有这些都已通过超大规模企业存储在云端,AMD也希望进一步扩大其在本地企业中的收益。2024年,从性能角度来看,您将看到英特尔在服务器端CPU方面再次具有竞争力。”
芯片制造商开始关注人工智能推理
各个垂直领域的公司都在竞相构建人工智能模型,因此人工智能培训的规模仍然很大。但Tirias Research创始人兼首席分析师Jim McGregor表示,到2024年,人工智能推理芯片市场将开始出现。
“正在向推理处理转变,”他说。“我们看到大量人工智能工作负载和生成式人工智能工作负载的出现。他们已经训练了模型。现在,他们需要一遍又一遍地运行它们,并且希望尽可能高效地运行这些工作负载。因此,期待看到供应商推出新产品。”
McGregor表示,Nvidia凭借其GPU在人工智能领域占据主导地位,但AMD已于12月发布了用于人工智能训练和推理的Instinct MI300系列GPU,推出了可行的竞争产品。
虽然GPU甚至CPU都用于训练和推理,但越来越多的公司(包括高通、Amazon Web Services(AWS)和Meta等超大规模企业,以及Groq、Tenstorrent和Untether AI等AI芯片初创公司)已经构建或正在开发专门用于人工智能推理的芯片。分析师还表示,这些芯片更加节能。
Kimball表示,当组织部署Nvidia H100或AMD MI300时,这些GPU非常适合训练,因为它们很大,具有大量内核,并且具有高带宽内存,具有高性能。
“推理是一项更轻量级的任务。他们不需要H100或MI300的强大功能,”他说。
2024年顶级数据中心芯片
以下是预计将于2024年推出的处理器列表。
AMD
AMD首席执行官苏姿丰在2023年第四季度财报电话会议上表示AMD计划在2024年下半年推出下一代服务器处理器Turin。Turin基于该公司新的Zen 5核心。
“Turin是现有第四代EPYC平台的直接替代品,通过添加下一代Zen 5核心、新的内存扩展功能和更高的核心数量,扩展了我们的性能、效率和TCO领先地位,”她在会上表示财报电话会议。
目前还没有该产品的具体细节。但Moor Insights&Strategy分析师Kimball表示,这款产品将具有重要意义。他表示:“AMD将寻求从性能和每瓦性能的角度进一步将自己与英特尔区分开来。”自去年12月推出以来,AMD也看到了对其Instinct MI300加速器(包括MI300X GPU)的巨大需求。苏姿丰在财报电话会议上表示,该公司计划今年为云、企业和超级计算客户积极提高MI300的产量。
英特尔
英特尔高管计划今年发布几款主要芯片:Gaudi 3 AI加速器和下一代Xeon服务器处理器。
Gaudi 3将用于AI训练和推理,瞄准企业市场。它的设计目的是与Nvidia和AMD的GPU竞争。英特尔表示这款AI芯片将比其前身Gaudi 2提供四倍的人工智能计算能力和1.5倍的内存带宽。
英特尔高管补充道,与Nvidia的H100 GPU相比,Gaudi 3预计训练和推理时间将加快50%,推理能效将提高40%。
分析师金博尔表示:“这将具有巨大的节能效果和更低的价格。”
至于下一代Intel Xeon 6处理器,Sierra Forest将包括一个具有288个核心的版本,这将是业界最大的核心数量。这也是该公司首款“E-core”服务器处理器,旨在平衡性能与能源效率。
Granite Rapids是一款“P核”服务器处理器,专为实现最佳性能而设计。该公司表示,与Sapphire Rapids相比,它将为AI工作负载提供两到三倍的性能提升。
英特尔发言人表示,Gaudi 3将于2024年第二季度向OEM供应,预计在第三季度全面上市。Sierra Forest(现称为具有E核的英特尔至强6处理器)预计将于2024年第二季度上市。英特尔发言人表示,Granite Rapids(现在称为带有P核的英特尔至强6处理器)预计将“很快”推出。
这一消息是在英特尔去年推出第五代至强CPU之后发布的。
英伟达
3月中旬,英伟达宣布将于今年晚些时候开始出货下一代Blackwell GPU,分析师表示,这将使这家芯片巨头能够继续主导AI芯片市场。
Blackwell GPU的新系列专为云提供商和企业而设计,在单个GPU上提供20 petaflops的AI性能,使组织能够以四倍的速度训练AI模型,将AI推理性能提高30倍,并使用多达25高管们表示,能效比Nvidia上一代Hopper架构芯片高出数倍。
Nvidia还将在2024年第二季度发货基于Hopper的H200。该公司最近宣布了新的基准测试,表明它是运行生成式人工智能工作负载的最强大的平台。该公司表示,在推理700亿个参数的Llama 2模型时,H200的性能比H100快45%。
Ampere
去年5月,这家由英特尔前总裁Renee James领导的初创公司宣布了一个新的定制设计、与Arm兼容的服务器处理器系列。具有多达192个核心。该公司高管表示,该处理器名为AmpereOne,专为云服务提供商而设计,可同时提供高性能和高能效。
AWS
AWS是与Nvidia、AMD和Intel等大型芯片制造商合作的超大规模提供商之一,并使用他们的处理器为客户提供云服务。但他们也发现构建自己的定制芯片来为自己的数据中心供电并为客户提供云服务是有利且具有成本效益的。
AWS今年将推出Graviton4,一种用于通用工作负载的基于Arm的CPU,以及用于人工智能训练的Tranium2。AWS安纳普尔纳实验室产品和业务开发高级总监Gadi Hutt表示,去年,该公司还推出了第二代人工智能推理芯片Inferentia2。
“我们的目标是为客户提供选择的自由,并以显著降低的成本为他们提供高性能,”赫特说。
Tranium2的计算能力是其首款Tranium处理器的四倍,内存是其三倍。Hutt表示,AWS在60,000个芯片集群中使用第一个Tranium芯片,而Tranium2将在100,000个芯片集群中使用。
微软Azure
微软最近发布了用于人工智能和生成式人工智能任务的Microsoft Azure Maia 100 AI加速器,以及用于通用计算工作负载的基于Arm的处理器Cobalt 100 CPU。
该公司去年11月表示,将于2024年初开始推出这两款处理器,最初为Microsoft Copilot和Azure OpenAI Service等微软服务提供支持。
该公司表示,Maia AI加速器专为AI训练和推理而设计,而Cobalt CPU是一款节能芯片,旨在提供良好的每瓦性能。
谷歌云
Google Cloud是超大规模领域的开拓者,于2013年首次推出了定制张量处理单元(TPU)。TPU专为人工智能训练和推理而设计,可在Google Cloud上向客户提供。这些处理器还支持Google服务,例如搜索、YouTube、Gmail和Google地图。
该公司去年年底推出了第五代TPU。该公司表示,Cloud TPU v5p训练模型的速度比其前身快2.8倍。
谷歌云周二宣布开发出首款基于Arm的CPU,名为Google Axion处理器。使用Arm Neoverse V2 CPU构建的新CPU将于今年晚些时候向Google Cloud客户提供。
该公司表示,客户将能够在许多谷歌云服务中使用Axion,包括谷歌计算引擎、谷歌Kubernetes引擎、Dataproc、Dataflow和Cloud Batch。
分析师Kimball预计,随着谷歌云开始为其客户部署自己的CPU,AMD和英特尔的收入将受到打击。
Meta
宣布,Meta今年已在其数据中心部署了用于人工智能推理的下一代定制芯片。
下一代人工智能推理芯片之前代号为Artemis,是该公司为Meta的人工智能工作负载设计的元训练和推理加速器(MTIA)系列定制芯片的一部分。
Meta去年推出了第一代人工智能推理芯片MTIA v1。该公司表示,与第一代芯片相比,新的下一代芯片的性能提高了三倍,每瓦性能提高了1.5倍。
Cerebras Systems
人工智能硬件初创公司Cerebras Systems于3月中旬推出了第三代人工智能处理器WSE-3。这款晶圆级芯片的性能是其前身的两倍,并在高端人工智能训练市场与英伟达展开竞争。
该公司在三月中旬还与高通合作,为其客户提供人工智能推理服务。在Cerebras硬件上训练的模型经过优化,可在Qualcomm Cloud A100 Ultra加速器上运行推理。
Groq
Groq是一家位于加利福尼亚州山景城的人工智能芯片初创公司,它构建了LPU推理引擎来运行大型语言模型、生成式人工智能应用程序和其他人工智能工作负载。
Groq于2020年发布了首款人工智能推理芯片,目标客户是超大规模企业、公共部门、人工智能初创公司和开发商。公司发言人表示,该公司将于2025年发布下一代芯片。
Tenstorrent
Tenstorrent是一家总部位于多伦多的人工智能推理初创公司,有着悠久的历史:其首席执行官是Jim Keller,一位芯片架构师,曾在苹果、AMD、特斯拉和英特尔工作,帮助设计了AMD的Zen架构以及早期苹果iPad和iPhone的芯片。
Tenstorrent战略和企业传播副总裁Bob Grim表示,该公司今年已开始接受Wormhole AI推理芯片的订单,并将于今年晚些时候正式推出。
他说,Tenstorrent正在向企业、实验室和任何需要高性能计算的组织销售由32个Wormhole芯片驱动的服务器。Grim表示,Tenstorrent目前专注于人工智能推理,但其芯片也可以为人工智能训练提供支持,因此该公司计划未来也支持人工智能训练。
Untether AI
Untether AI是一家总部位于多伦多的人工智能芯片初创公司,致力于打造节能人工智能推理芯片。
该公司发言人表示,该公司的总裁是前英特尔公司副总裁兼总经理Chris Walker,该公司于2021年推出了首款产品,并计划于今年推出第二代SpeedAI240芯片。
该发言人表示,Untether AI的芯片专为各种外形尺寸而设计,从用于嵌入式应用的单芯片设备到4芯片PCI-Express加速卡,因此其处理器可用于从边缘到数据中心的各个环节。