本文来自微信公众号“电子发烧友网”,文/周凯扬。
为了进一步减少成本,把自己的服务做出差异化,不少半导体行业外的厂商都纷纷加入了造芯的队列中来,比如互联网公司、云服务厂商等。绝大多数的参与程度并不算深,有的选择组建一个小的设计团队,直接购买第三方IP来拼凑出一个可用的芯片,有的则选择收购初创半导体公司,去走传统的芯片设计路线。
不管是哪种方式,对于云服务厂商来说,拥有自研芯片都是一个极其诱人的选项,甚至不惜花费大量研发成本倾力打造。但头部云厂商的芯片自研实力发展到现在究竟如何,不少人还没有一个大致的概念,我们不妨以排名前三的亚马逊、微软和谷歌为例,一探他们在自研上付出的努力以及国内云服务厂商是怎么迎头赶上的。
亚马逊——已经成为不容小觑的半导体公司
要说开始自研服务器芯片的话,亚马逊可谓是最具前瞻眼光的云服务厂商了,他们多年前收购的以色列芯片设计公司Annapurna Labs,已经帮助他们自研出了通用CPU、AI推理/训练和网络芯片,且每一个都有着极致的竞争力。这也是为何在Gartner的“云基础设施和平台服务魔力象限”数据中,AWS每年都能在领导力象限遥遥领先的原因。
以亚马逊的Graviton系列芯片为例,由于AWS庞大的体量,可以说是一举撑起了Arm服务器芯片的市场占有率,以极高的性价比优势吸引了更多客户选择了AWS。再者就是Inferentia推理芯片和Trainium训练芯片,在这两大产品的定位上,亚马逊很好地避开了与英伟达GPU直接竞争,而是作为一个根据性价比的方案,如果客户追求极致的性能和更完善的开发生态,还是可以直接选择AWS的GPU方案。
亚马逊自研芯片的理由也很好猜,除了降本增效外,必然是进一步提升难以复制的竞争力。要知道,在AWS利润一再攀升后,不少竞争对手都开始复制亚马逊的商业模式,也一并获得了成功。大家都是一样的API模式,一样的云计算硬件,所以亚马逊不得不想出一个难以复制,至少是短期内难以复制的方案,自研芯片。
谷歌——自研TPU虽好,但还是别人的GPU更香?
谷歌自从自研TPU以来,就在大力发展谷歌云的AI云计算业务,就拿全新的TPUv4加速器为例,谷歌在2022年就宣布已经建成了8个TPUv4集群。一年过去,谷歌必然已经在多个数据中心搭建了更多的集群。要知道,单是一个集群的芯片,就可以提供1exaflops以上的峰值AI计算性能。这样的扩展性及性能,足见谷歌在AI芯片上可怕的研发实力。
可谷歌虽然有自研芯片,但依然还是陷入了一个相当尴尬的局面,那就是其自研芯片鲜有人买账,主要是自己的搜索和广告服务平台在用。这点从市场份额也可以看出,这么多年亚马逊一直维持着领先地位,但落后的Azure和谷歌云其实打得有来有回,可从2022年的数据上来看,微软的Azure市场份额已经接近谷歌云的两倍。
可以看出,谷歌的云服务策略显然出现了问题,其自研芯片的吸引力还是不够大,但推动自研芯片对其业务运营本身还是有些成效的。比如从今年第一季度的业绩上来看,尽管谷歌的主心骨广告业务出现了下滑趋势,但谷歌云业务部门却实现了自公布收入以来的首次盈利。其中当然也有市场总量扩张和业务利润率提升的原因,但结合其市场份额下滑的趋势来看,很明显成本上得到了很好的控制。
这就导致了虽然谷歌仍在加大力度自研芯片,比如传言中很快就会亮相的TPUv5,但谷歌依然是英伟达GPU最大的买家之一。所以至少对于现在的谷歌来说,自研芯片对自身其他业务的增强,要远超谷歌云业务。
微软——自研芯片已在路上
到了微软这,芯片自研的情况就有些复杂了。由于和谷歌一样业务众多,微软本身除了Azure云服务业务外,还有不少消费业务,其中也用到了不少特殊的芯片。诸如高通的笔记本芯片、AMD的游戏主机芯片,可以说微软在芯片上的努力更多是与第三方展开合作。毕竟这么多年以来,微软内部并没有追求打通自研芯片设计的全流程,更多的精力还是放在了完善产品上。
同样的情况发生在云计算业务上,多年来迟迟不见微软有更大的动作。尽管凭借着与OpenAI等厂商的合作,微软Azure一举甩开了谷歌云,稳稳占据了第二的地位,甚至有剑指亚马逊AWS的意味,但似乎还差了一口气。
在去年年初,微软从苹果挖来了一位半导体老将,曾任Arm首席架构师的Mike Filippo,且就职于Azure部门。此举足以表明,在亚马逊和谷歌两者各种动作的刺激下,微软已经开始加速推进其服务器自研芯片项目了。
彭博社爆料,微软已经组建了一个数百人的独立团队,与AMD联合开发一款代号名为“Athena”的AI芯片,欲直接挑战英伟达在AI处理器上的霸主地位,据传此次开发项目已经投入了20亿美元。
不过和已经自研芯片落地的亚马逊和谷歌一样,微软也会采取多样化的方案,不会因为自研芯片就与英伟达等第三方芯片厂商分道扬镳,给到客户更多的选择向来都是云服务厂商拉拢更多客户的方式之一。
国内云厂商的努力
其实这几年国内的云服务厂商也陆续推出了自研芯片,从现有的芯片布局来看,他们与国际巨头的策略也有不少相似之处。比如阿里巴巴平头哥团队自研的倚天710,从架构和性能上来看,明显对标的就是亚马逊的Graviton,且根据阿里巴巴的说法,目前倚天710已经大规模应用于阿里云的数据中心,可以预见倚天710以及后续的数据中心CPU产品将为其继续节省成本,并提供更具性价比的方案。
从平头哥的实力来看,他们既有根据Arm Neoverse架构开发高性能处理器的实力,也有凭借自研玄铁架构打造高性能RISC-V处理器的能力。且在去年8月,平头哥已经参与并联合成立了开源龙蜥社区的RISC-V架构联合小组,相信不久我们就会在阿里云看到“一云多芯”的局面。
至于腾讯云,这家在Gartner魔力象限图谱中属于小众玩家象限的云服务厂商,对自己的定位相当明确,所以目前还是以数据中心特定应用的自研芯片为主,比如用于AI推理的紫霄芯片、用于视频转码的沧海芯片和智能网卡芯片玄灵。虽然这三大自研芯片并非高性能的通用CPU,但针对的均属于在国内相当吃香的应用,包括腾讯自己的不少业务,其中尤为亮眼的就是沧海芯片。
在直播/点播平台、云游戏等场景中,视频转码芯片在保证高效率转码性能的同时,又能比GPU省下大半的成本,还可以针对性地提供附加服务,比如音画质增强、内容分析理解和实时渲染等等。至于目前大热的AI推理,目前腾讯云的沧海还未公开投入使用,不过腾讯云已经透露用于内部业务中。
写在最后
归根结底,在云服务厂商之间激烈的竞争下,自研芯片只是他们提升竞争力的一种手段罢了。在AI热潮尚未平复下来之前,他们依然会继续持续采购英伟达的GPU,提供高性能的AI推理和训练方案。在这样的趋势下,如何确定芯片的定位是每一个走上自研道路的云服务厂商必须思考的问题。