AMD全面发力AI芯片挑战英伟达,差距还有多大?

极客芯片
AMD在软件优化方面做得特别好,尽管在硬件性能方面存在差异,但仍能跟上英伟达的发展步伐。Tang表示,用户并不需要更改代码库或重新编写大型语言模型,就可以切换到采用AMD的产品。他表示,它们本质上是可以互换的。

本文来自极客网,作者:极客芯片。

AMD制造的AI芯片“几乎”与业界领先的英伟达AI芯片一样快。这是根据Databricks旗下的AI软件开发商MosaicML的一项研究得出的结论。研究发现,在训练大型语言模型和执行其他AI密集型任务时,AMD的AI芯片达到了英伟达同类产品的80%。

640.jpg

MosaicML将AMD MI250与Nvidia A100进行了对比,并训练了不同大小的大型语言模型

英伟达的芯片目前在训练AI模型(例如用于运行ChatGPT或Midjourney的模型)方面占据主导地位。这些产品的成功和对计算能力的需求将英伟达的估值推至1万亿美元,并引发了GPU的短缺。

MosaicML对比测试AMD的M1250 GPU与英伟达的A100 GPU

MosaicML最近将AMD的M1250 GPU与英伟达的A100 GPU进行了对比测试。这两款设备都比各自开发的顶级芯片落后一代,它们被用来训练大型语言模型,研究人员发现,AMD和英伟达的芯片在训练模型时都能“开箱即用”,AMD M1250 GPU的性能约为英伟达A100 GPU的80%。

MosaicML训练了10亿到130亿个参数的模型,类似于企业中用于为大型公司数据集的搜索和汇总提供AI驱动工具的模型。他们在4个GPU的单个节点上进行训练,发现MI250 GPU的吞吐量在A100 GPU的80%以内。MI250在每秒浮点运算和内存方面略有优势,允许每个GPU训练更大的模型。

该公司计划在更大的GPU集群上对更大的模型进行分析,以确认AMD系统是否可以在大规模下运行,并正在与超大规模厂商合作。他们还计划创建推理基准,并在两个系统上使用扩散模型等其他模型来测试更广泛的选项。

虽然这两款芯片并不是这两家公司的顶级产品,但它们都被广泛用于数据中心和训练AI模型。MosaicML表示,新的机器学习训练硬件对于在英伟达GPU供应紧张的情况下提高计算可用性是必要的。

软件驱动的AMD

MosaicML表示,AMD的性能与该公司去年发布的新版本软件有关,该软件与开源AI软件PyTorch交互。MosaicML首席技术官Hanlin Tang表示,AMD对MI250 GPU的进一步软件更新将使其在今年年底之前达到英伟达A100 GPU的性能。

他表示,AMD在软件优化方面做得特别好,尽管在硬件性能方面存在差异,但仍能跟上英伟达的发展步伐。Tang表示,用户并不需要更改代码库或重新编写大型语言模型,就可以切换到采用AMD的产品。他表示,它们本质上是可以互换的。

Tang表示,AMD并没有委托MosaicML进行这项研究。MosaicML开发的软件旨在使企业更容易创建AI模型并在内部进行培训,而不是依赖OpenAI或其他大型AI实验室的工具。他指出,这项研究是为了表明除了英伟达的芯片之外还有其他选择。

他说,“总的来说,我们对AI训练硬件的未来市场非常乐观,有更多的选择意味着更多的计算供应,更低的市场价格,最终为想要训练自己的模型的用户降低成本。”

Databricks透露,该公司近日已经斥资13亿美元收购MosaicML,这是该公司构建企业级开源AI模型生态系统的更广泛努力的一部分。这两家公司都在开发软件工具,使AI算法更小、更便宜地在大型数据集上运行,但MosaicML软件将用于增强Databricks的服务。

在这份报告发布之际,英特尔日前宣布了从2025年开始在AI芯片领域展开竞争的长期计划。该公司正在转变战略,专注于制造与英伟达和AMD的硬件相抗衡的产品。

英特尔在上周宣布其FalconShores芯片将拥有288GB内存,并支持8位浮点计算,这对于训练AI模型非常重要。英特尔还声称,其Ponte Vecchio AI芯片的性能优于英伟达H100。虽然Vecchio AI芯片的供应面临延期,但将成为美国阿贡国家实验室最新超级计算机的核心,预计今年将完成发货。

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论