谷歌芯片,全球第三了

尽管谷歌是一家无晶圆厂设计公司,不向第三方公司出售芯片,但它是数据中心处理器业务中真正的巨头。山景城公司拥有重要的市场份额,由于最近人工智能的爆炸式增长,该市场份额有望进一步扩大。

本文来自微信公众号“半导体行业观察”。

尽管谷歌是一家无晶圆厂设计公司,不向第三方公司出售芯片,但它是数据中心处理器业务中真正的巨头。山景城公司拥有重要的市场份额,由于最近人工智能的爆炸式增长,该市场份额有望进一步扩大。

Tech Insights发布的新研究将谷歌评为数据中心领域最大的芯片设计公司之一。Tech Insights表示,凭借其在半导体供应链和ASIC市场等多个领域的独特专业知识,谷歌的市场份额可与英特尔和AMD等更知名的芯片制造商相媲美。

Tech Insights强调,谷歌在2015年推出的张量处理单元(TPU)开创了定制人工智能加速器的先河,这使得该公司超越了云竞争对手微软和亚马逊。就市场份额而言,只有英伟达和英特尔超越谷歌。

Tech Insights指出,谷歌去年向其全球数据中心运送了200万个TPU。随着TPU v4的推出,该业务在2021年实现了显着增长,恰逢大型语言模型的兴起。Broadcom是Google在ASIC设计方面的主要合作伙伴,它可能从TPU v4的推出中受益最多。

谷歌使用TPU来加速内部工作负载,而Nvidia GPU则处理云计算任务。Tech Insights报告称,到2023年,谷歌将拥有最大的AI加速器安装基数和最大的AI计算基础设施。该公司最近推出了第六代TPU,称为Trillium,旨在增强AI超级计算机架构。

TI还指出,随着云超大规模企业投资新的加速器和Nvidia AI GPU,去年服务器市场的库存出现了重大调整。微软和亚马逊还分别使用Azure Cobalt和Graviton开发定制人工智能加速器。

Azure Cobalt和Graviton都是基于Arm的定制处理器。谷歌最近推出了基于Arm的Axion处理器来补充其TPU。根据Bernstein Research的报告,Arm架构目前已用于全球10%的服务器,其中超过50%安装在亚马逊的AWS数据中心。

谷歌的第六代TPU

5月14日星期二,谷歌发布了名为Trillium的第六代TPU(张量处理单元)。

该芯片本质上是TPU v6,是该公司在与GPU制造商英伟达以及云提供商微软和亚马逊(拥有自己的人工智能芯片)的人工智能战斗中的最新武器。

TPU v6将继承TPUv5芯片,TPUv5芯片有两种版本:TPUv5e和TPUv5p。该公司表示,Trillium芯片是“迄今为止性能最高、最节能的TPU”。“

谷歌在加州山景城举行的IO会议上表示,Trillium芯片将运行的人工智能模型将取代当前的Gemini大语言模型。

谷歌对该芯片进行了全方位的改进。该芯片的峰值计算性能提高了4.7倍。它还使高带宽内存、内部带宽和芯片间互连速度加倍。

谷歌发言人在给HPCwire的电子邮件中表示:“通过比较Trillium TPU与Cloud TPU v5e的每芯片峰值计算性能(bf16),我们得到了4.7倍的数字。”

BF16在TPU v5e上的性能为197 teraflops,如果提高4.7倍,BF16在Trillium上的峰值性能将达到925.9 teraflops。

Google的TPU早就应该有大幅的性能提升了。TPU v5e的197万亿次浮点BF16性能实际上比TPU v4的275万亿次浮点有所下降。

Trillium芯片具有下一代HBM内存,但没有具体说明它是HBM3还是HBM3e,Nvidia在其H200和Blackwell GPU中使用了HBM3e。

TPU v5e上的HBM2容量为16GB,因此Trillium将拥有32GB的容量,HBM3和HBM3e均有提供。HBM3e提供最大的带宽。

服务器Pod中最多可配对256个Trillium芯片,与TPU v5e相比,芯片间通信提高了一倍。谷歌没有透露芯片间通信速度,但可能是3,200 Gbps,是TPU v5e 1,600 Gbps的两倍。

谷歌在一篇博客文章中表示,Trillium TPU的节能效果也比TPU v5e高出67%。

Trillium正在取代TPU品牌名称,并将成为未来几代芯片背后的品牌。Trillium是根据花的名字命名的,不要与AWS的Trainium混淆,Trainium是一种人工智能训练芯片。

谷歌很快就发布了其第六代TPU——距离该公司发布TPU v5芯片还不到一年。

TPU v4于2020年推出,拖了三年才发布TPU v5。TPU v5本身的开发也陷入了争议之中。

谷歌声称,人工智能代理帮助TPU v5芯片进行平面规划,速度比人类专家快约六个小时。

与TPU v5 AI设计项目相关的研究人员被解雇或离职,这些说法目前正在接受《自然》杂志的调查。

服务器Pod将托管256个Trillium芯片,AI芯片的通信速度是类似TPU v5 Pod设置的两倍。

这些Pod可以组合成更大的集群,并通过光纤网络进行通信。舱体之间的通信速度也将提高两倍,从而提供更大的AI模型所需的可扩展性。

谷歌表示:“Trillium TPU可以扩展到数百个Pod,通过每秒数拍比特的数据中心网络互连建筑级超级计算机中的数万个芯片。”

一项名为Multislice的技术将大型AI工作负载串联到大型集群中的数千个TPU上。这确保了TPU的高正常运行时间和能效。

该芯片具有第三代SparseCores,这是一种更接近高带宽内存的中间芯片,大多数AI运算都在这里进行。

SparseCores使处理更接近内存中的数据,支持AMD、英特尔和高通正在研究的新兴计算架构。

通常,数据必须从内存移动到处理单元,这会消耗带宽并产生阻塞点。稀疏计算模型试图通过将处理单元移近内存集群来释放网络带宽。

谷歌表示:“Trillium TPU可以更快地训练下一波基础模型,并以更少的延迟和更低的成本为这些模型提供服务。”

Trillium还具有用于矩阵数学的TensorCore。Trillium芯片是为人工智能设计的,不会运行科学应用程序。

该公司最近发布了首款CPU Axion,它将与Trillium搭配使用。

Trillium芯片将成为谷歌自主研发的Hypercomputer AI超级计算机设计的一部分,该设计针对其TPU进行了优化。

该设计融合了计算、网络、存储和软件,以满足不同的AI消费和调度模型。“日历”系统满足任务何时开始的严格期限,而“弹性启动”模型则保证任务何时结束并交付结果。

超级计算机包含一个软件堆栈和其他工具,用于开发、优化、部署和编排用于推理和训练的AI模型。其中包括JAX、PyTorch/XLA和Kubernetes。

超级计算机将继续使用针对GPU优化的互连技术,例如基于Nvidia H100 GPU的Titanium卸载系统和技术。

预计Trillium芯片将在Google Cloud中提供,但谷歌没有提供提供日期。它将成为顶级产品,成本高于TPU v5产品。

云中GPU的高价格可能会让Trillium对客户有吸引力。已经使用Vertex(Google Cloud中的AI平台)中提供的AI模型的客户也可能会转向Trillium。

AWS的Trainium芯片也可用,而微软的Azure Maia芯片主要用于推理。

谷歌一直将其TPU作为Nvidia GPU的AI替代品。谷歌发布了研究论文,将TPU的性能与同类Nvidia GPU进行了比较。

谷歌最近宣布将搭载Nvidia的新GPU、B200和带有Blackwell GPU的专用DGX盒。

Nvidia最近还宣布将以7亿美元收购Run.ai。收购Run.ai将使Nvidia在运行AI模型时能够使其软件堆栈独立于Google的堆栈。

TPU最初是为谷歌的本土模型设计的,但该公司正在努力更好地映射到开源模型,其中包括Gemini的分支Gemma。

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论