自研服务器芯片或许没有那么大优势

周凯扬
自研芯片在当下似乎已经成了一种潮流,无论是消费电子厂商、互联网公司还是汽车厂商,都在拿自研芯片做文章。作为时刻都在与计算打交道的云端,自然也参与其中,甚至是先进工艺自研芯片的主力军。

本文来自微信公众号“电子发烧友网”,作者/周凯扬。

自研芯片在当下似乎已经成了一种潮流,无论是消费电子厂商、互联网公司还是汽车厂商,都在拿自研芯片做文章。作为时刻都在与计算打交道的云端,自然也参与其中,甚至是先进工艺自研芯片的主力军。

自研芯片能省下多少钱?

早在芯片产业有布局,或者以收购来掌握芯片设计实力的云服务厂商,几乎都选择了自研服务器芯片这条路线,比如亚马逊、谷歌、阿里巴巴等等。自研芯片的范围也从网络芯片到通用计算的CPU,再到用于AI计算的ASIC芯片。

亚马逊就靠着自研芯片省下了一大笔成本,这也是其他云服务厂商目前都没能复制的成功。首先自研芯片通过架构上的创新,为其定制化实例提供了更高的性能,比如Nitro芯片靠卸载任务可以多省出两个CPU内核;其次,对于某些特定的工作负载来说,自研芯片带来了更容易把握的战略控制以及硬件锁定;最后,自然也省去了找第三方fabless设计公司的成本。

考虑到云服务厂商在硬件投入上的规模,以及亚马逊作为全球第一大云服务厂商的体量,其中省下的成本还是相当庞大的。这也是亚马逊走自研芯片可行的原因,其他云服务厂商或许能通过自研把设计成本压下去,但制造成本绝对没法像亚马逊一样压这么低,这也是为何AWS过去能做到频繁降价。

AI时代下自研芯片优势有,但不多

亚马逊在收购后,接连推出了Trainium和Inferentia这两大训练和推理加速器,并将其集成到自己的云端实例中去,以优异的性能为客户提供高性价比的AI硬件方案。但这似乎并没有为其在最近的AI热潮中带来优势,反倒是微软凭借英伟达的GPU率先以ChatGPT开启了这场恶战,谷歌的Bard也紧随其后。

亚马逊则选择了与Hugging Face合作,作为其首选云供应商,用户可以借助AWS上的先进工具,比如SageMaker托管服务,以及Trainium和Inferentia硬件,去训练、微调和部署模型,从而为社区创造更加开放易用的AI。

但事实上是,这一合作激起的水花很快就被淹没在了如倾盆大雨般落地的AI应用中。而且对于Hugging Face来说,他们想要打造的是开放式的生成式AI模型,也就是说其他厂商也都能从中获益,也就是两家共同提到的机器学习民主化。

况且在部署上,早在与亚马逊合作之前,Hugging Face就已经在2022年与微软Azure达成合作,在Azure的ML终结点上部署Hugging Face的机器学习推理服务。所以这次合作即便充分利用了亚马逊的自研AI芯片,但给其带来的优势并不算大。无论是在性能还是在软件生态上,现有的自研芯片都存在如鲠在喉的地方,而这不仅局限于亚马逊这样的大厂,不少初创AI芯片公司也都或多或少面临这样的困境。

结语

其实自研芯片也并非真的毫无灵活性可言,比如亚马逊的Graviton和阿里的倚天710,虽说是自研芯片,但用到的毕竟还是Arm的Neoverse公版方案,还有不少第三方方案也是如此,比如英伟达的Grace、Ampere Computing的Altra等等。

这样一来其实开发灵活性依然很高,比如英伟达为了给Grace做铺垫,也对同类产品的软件栈提供了支持。比如英伟达的HPC SDK全面支持AWS的Graviton 3,也支持对SVE和NEON的自动矢量化。而英伟达推出的Arm HPC开发套件,也是由Ampere的Altra Q80-30 CPU与A100 GPU组合打造的,与Grace芯片共用同一套软件环境。

只不过在AI领域,这样的自研路线优势会更小一点,毕竟现在AI模型与算法发展迅速,自研GPU有着各种难以突破的专利壁垒,自研ASIC又存在迭代适应和软件生态移植的问题。而这对于云服务厂商这种为客户赋能更快产品上市速度的企业来说,或许在AI仍在快速演进的当下,GPU会是更优解,这也是云服务厂商即便选择了自研AI芯片,主打的却依然是GPU实例的原因。

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论