本文来自极客网,作者:小刀。
传闻是真的,微软正在开发定制AI芯片,它可以用来训练大语言模型,让微软获得更多独立,避免过度依赖英伟达。不只如此,微软还在开发Arm CPU,主要供云计算网络使用。两款芯片瞄准的都是Azure数据中心,微软企业客户可以用它们来搭建AI平台。
最新消息显示,微软Azure Maia AI芯片和Arm版Azure Cobalt CPU将会在2024年推出。目前市场上最流行的AI芯片是英伟达的H100 GPU,企业用它训练生成式图形工具和大语言模型。英伟达GPU需求很高,供不应求,网上标价单块已经冲破4万美元。
深度定制芯片
微软Azure硬件系统和基础设施主管Rani Borkar解释说:“在芯片开发方面微软实际上有很长的历史。”20多年前微软就曾联合其它企业开发Xbox芯片,还曾开发过Surface芯片。“所有这些努力都是建立在经验之上的。2017年我们开始研究云计算硬件,开始研发自己的定制处理器。”
Rani Borkar称,Azure Maia AI芯片和Cobalt CPU都是微软自己开发的,当中还涉及到云服务器堆栈,兼顾性能、能耗和成本。“AI时代来临,我们重新思考云基础设施,重新优化了基础设施的每一层。”
Azure Cobalt CPU是一款128核芯片,它是基于ArmNeoverse CSS设计的,属于微软定制产品。芯片将会用来驱动Azure云服务。Rani Borkar说:“我们除了深入思考性能,还考虑到能耗管理。在设计时我们有意做了一些选择,比如可以控制每个内核的性能和能耗,还有它在虚拟机上的表现。”
目前微软已经在Teams、SQL服务器上测试Cobalt CPU,明年就会向客户提供虚拟机。
全面提升性能
亚马逊也开发了Graviton 3服务器,它与微软服务器相比谁更胜一筹呢?微软没有明说,不过考虑到微软Azure Cobalt CPU是基于Arm架构开发的,性能上应该有一些优势。Rani Borkar称:“最初的测试显示,微软新品的性能比微软现有数据中心中产品的性能高40%,目前用的是商用版Arm服务器。”
至于Maia 100 AI,它是面向AI开发的。有些企业想在Azure平台上执行AI任务,Maia 100 AI可以帮上忙。微软已经与OpenAI携手合作,设计测试Maia。
OpenAI CEO Sam Altman说:“很高兴微软在第一时间向我们分享了Maia芯片的设计,我们正在努力改进、测试模型。Azure提供的端到端AI架构已经针对Maia进行了优化,未来可以帮助客户训练更强大的模型,让模型变得更便宜。”
Maia芯片是用台积电5纳米工艺制造的,拥有1050亿晶体管,比AMD MI300X AI GPU的1530亿个少30%。微软、AMD、英特尔、Meta、英伟达、高通都在努力,它们试图让下一代AI模型数据模式实现标准化。
Rani Borkar说:“Maia是微软开发的第一款真正的液冷服务器处理器。我们的目标是打造更高密度、更高效率的服务器。”微软新系统与当前的数据中心是契合的,所以部署时会更快。
目前微软正在利用GPT 3.5 Turbo、必应AI、GitHub Copilot对Maia 100进行测试,只是部署还处在早期阶段,所以微软没有提供具体的性能测试数据。
打造多样化供应链
因为缺少具体数据支撑,我们不知道Maia相比英伟达H100、AMD MI300X谁更强大。Rani Borkar不愿意和竞争对手对比,她只是说微软与AMD、英伟达都有合作。微软主要还是想打造多样化供应链,不想过度依赖英伟达。
照估计,为了让ChatGPT商用,OpenAI采购了3万颗A100 GPU芯片,如果微软能拥有自己的芯片,就可以帮OpenAI降低成本。至于微软为Azure开发的芯片,它不会对外出售。Borkar解释称:“它更多像是补充,不是为了与对手竞争。我们的云计算平台上有AMD、英特尔芯片,在AI方面,除了英伟达芯片,我们也会用AMD芯片。对于我们的基础设施而言,这些合作伙伴相当重要,我们也想给客户更多选择。”
从Maia 100和Cobalt 100的命名看,微软肯定已经在设计第二代产品。Borkar说:“这是一个系列的产品,不只有100,还会有更多……不过我们暂时不会透露路线图规划。”
到目前为止微软并没有透露Maia的价格,不过微软已经悄悄推出微软365 Copilot服务,每月每用户收费30美元,并不便宜,照此推测,Maia应该也不会便宜。
从微软的规划看,Maia 100人工智能芯片的直接对手是英伟达GPU,Cobalt 100芯片主要针对英特尔处理器。截止10月底,微软拥有现金1440亿美元,2022年在全球云计算市场占据21.5%的份额。到了2024年,运行Cobalt 100芯片的虚拟机服务将会正式商用。
巨头定制芯片大势所趋
微软的对手也没有闲着。2016年谷歌推出Tensor处理器,2018年亚马逊推出Graviton Arm处理器和Inferentia AI处理器,还于2020年推出Trainium(可以训练AI模型)。
从竞争对手的举动看,微软推出自有处理器也是随了大流。在过去一年多时间里,芯片价格上涨,美国加息,企业不得不寻找办法提高资金利用效率,于是它们开始偏爱AWS Graviton处理器。在AWS前100大客户中,几乎所有客户都在使用ARM处理器,性价比提升了40%。
毋庸讳言,定制AI芯片已经成为巨头们必须参与的游戏,竞争会越来越激烈!(小刀)