本文来自微信公众号,内容由半导体行业观察(ID:icbank)编译自hpcwire,谢谢。
微软和谷歌正在通过搜索引擎将人工智能带给人们,从而推动了一场重大的计算变革,而衡量成功的标准之一可能取决于支持应用程序的硬件和数据中心基础设施。
上周,微软和谷歌宣布推出下一代人工智能搜索引擎,可以推理和预测,并为用户问题提供更全面的答案。搜索引擎将能够为复杂的查询生成完整的答案,就像ChatGPT提供详细答案或撰写论文的方式一样。
微软正在将AI置于Bing中以响应文本查询,Google也计划将AI置于其文本、图像和视频搜索工具中。这些公告是在上周连续几天发布的。
两家公司承认,如果没有强大的硬件基础设施,人工智能就不可能进入搜索引擎。两家公司没有分享驱动人工智能计算的实际硬件的细节。
多年来,微软和谷歌一直在培育专为黄金时段公告设计的人工智能硬件,例如上周的人工智能搜索引擎。
这些公司拥有截然不同的人工智能计算基础设施,响应速度和结果准确性将成为对搜索引擎生存能力的严峻考验。
谷歌的Bard在其云服务中由其TPU(张量处理单元)芯片提供支持,熟悉该公司计划的消息人士证实了这一点。微软表示,其在Azure中的人工智能超级计算机——可能在GPU上运行——可以以毫秒级或搜索延迟的速度提供结果。
谷歌的TPU与AI市场领导者Nvidia之间的AI计算展开了一场非常公开的战斗,Nvidia的GPU在市场上占据主导地位。
“团队致力于在全球范围内为机器和数据中心提供动力和建设。我们仔细地编排和配置了一组复杂的分布式资源。我们构建了新的平台部件,旨在以前所未有的方式帮助负载平衡、优化性能和扩展,”微软Bing产品负责人Dena Saunders在发布会上说。
微软正在使用更高级版本的OpenAI的ChatGPT。在微软的活动中,OpenAI首席执行官Sam Altman估计每天有100亿次搜索查询。
微软通过实现让Bing拥有AI能力的道路确保其AI超级计算机具有计算能力,该公司声称它是世界上最快的五台超级计算机之一,但该计算机未列入Top500排名。
“我们参考了AI超级计算机,但这项工作花费了数年时间,并且需要大量投资来构建我们可以在堆栈的每一层中引入的规模类型、速度类型和成本类型。微软执行副总裁兼首席财务官Amy Hood上周在与投资者的电话会议上表示,我认为……我们的运营规模非常不同。
Hood说,随着使用规模和优化的实施,超级计算机层的AI计算成本将随着时间的推移而继续下降。
“当然,每次搜索交易的成本往往会随着规模的扩大而下降,我认为我们从一个非常强大的平台开始,以便能够做到这一点,”Hood说。
随着更多GPU的实施,计算成本通常会上升,冷却成本和其他支持基础设施也会增加账单。但公司通常将收入与计算成本挂钩。
微软的AI超级计算机是与OpenAI合作建造的,它拥有285,000个CPU内核和10,000个GPU。Nvidia在11月签署了一项协议,将其数万个A100和H100 GPU放入Azure基础设施中。
根据Statcounter的数据,微软的Bing搜索份额并不接近谷歌搜索,谷歌搜索在1月份拥有93%的市场份额。
人工智能从根本上说是一种基于推理和预测能力的不同计算方式,而传统计算则围绕逻辑计算展开。AI是在可以执行矩阵乘法的硬件上完成的,而传统计算围绕着CPU展开,CPU擅长数据的串行处理。
谷歌正在采取谨慎的态度,并将其Bard对话式AI作为其LaMDA大型语言模型的轻量级现代版本发布。谷歌的LaMDA是与OpenAI的GPT-3竞争的本土版本,后者是ChatGPT对话式人工智能的基础。
Technalysis Research首席分析师Bob O'Donnell表示,处理AI搜索的基础设施建设仍在进行中,微软和谷歌需要解决很多问题。
微软意识到人工智能计算正在迅速发展,并且愿意测试和使用新的人工智能硬件,O'Donnell说,他在上周的Bing AI发布会上与微软的基础设施团队进行了交谈。
“他们还明确表示,‘我们正在尝试一切,因为它一直在变化。甚至我们现在正在做的事情也会随着时间的推移而改变——未来会有不同,'”O'Donnell说。
O'Donnell说,对于Microsoft而言,拥有一个更灵活的计算平台“比在一项给定任务上一定要快5%”更为重要。
“他们承认,‘看,我们将在接下来的30天内学到很多东西,因为人们开始使用它,我们开始看到负载的真实情况。’这是一种动态的、动态的东西,”O'Donnell说。
例如,Microsoft可能会了解人们使用搜索请求访问服务器的高峰时间。O'Donnell说,在低使用率期间,微软可以从输出结果的推理部分切换到需要更多GPU计算的训练部分。
谷歌于2016年推出的TPU一直是该公司人工智能战略的关键组成部分。众所周知,TPU为AlphaGo提供了动力,该系统在2016年击败了围棋冠军李世石。该公司的LaMDA LLM是为在TPU上运行而开发的。谷歌的姊妹组织DeepMind也在使用TPU进行人工智能研究。
SemiAnalysis创始人Dylan Patel在一份简报中表示,谷歌的芯片“使用内部TPUv4 pod与Microsoft/OpenAI使用基于Nvidia的HGX A100s相比,在基础设施方面具有显著优势”。
随着时间的推移,随着硬件规模和模型针对硬件的优化,成本将会降低,Patel写道。
Facebook现在正在建设具有更多AI计算能力的数据中心。Facebook集群将拥有数千个加速器,其中包括GPU,并将在8至64兆瓦的功率范围内运行。人工智能技术被用来删除令人反感的内容,计算集群将驱动公司的元宇宙未来。该公司还在建造一台配备16,000个GPU的AI研究超级计算机。
Mercury Research首席分析师迪恩·麦卡伦(Dean McCarron)表示,一般来说,现在正在为目标工作负载构建数据中心,这些工作负载越来越多地围绕人工智能应用,并且具有更多GPU和CPU内容。
云提供商经过漫长的评估周期来挑选最好的CPU、GPU和其他组件。总拥有成本是另一个考虑因素。
“这里的另一个问题是它有多灵活?因为一些购买者可能不想对特定的工作负载投入或做出太大的承诺,因为他们不知道将来是否会出现这种情况,”McCarron说。
优先支持AI工作负载的数据中心将更多地采用Intel、Nvidia和AMD的GPU和CPU。有些人可能会为AI工作负载选择备用加速器,但它们可以与GPU和CPU共存。
“你总是需要更快的GPU。十年后,在数据中心,会有CPU吗?是的。会有GPU吗?是的,也是,”麦卡伦说。