本文来自微信公众号“半导体行业观察”。
芯片行业正在朝着特定领域的计算发展,而人工智能(AI)则朝着相反的方向发展,这种差距可能会迫使未来芯片和系统架构发生重大变化。
这种分裂的背后是设计硬件和软件所需的时间。自ChatGPT在全球推出以来的18个月里,大量软件初创公司纷纷探索新架构和技术。考虑到映射到它们身上的任务变化速度之快,这种趋势可能会持续下去。但生产一块定制芯片通常需要超过18个月的时间。
在标准的世界中,软件不会随着时间的推移而发生太大变化,定制硬件以满足应用程序或工作负载的确切需求是值得的,仅此而已。这是RISC-V背后的主要驱动因素之一,其中处理器ISA可以专门为给定任务设计。但是,随着AI的多种变化,硬件在投入批量生产时可能已经过时了。因此,除非规范不断更新,否则专门针对应用程序优化的硬件不太可能足够快地进入市场以供使用。
因此,特定领域AI芯片首次运行失败的风险会增加。在修复该问题的同时,生成式AI将继续发展。
但这并不意味着定制硅片的末日。数据中心正在部署越来越多的处理架构,其中每一种架构在特定任务上都比单个通用CPU更胜一筹。Quadric首席营销官Steve Roddy表示:“随着数据中心AI工作负载的激增,随着数据中心芯片和系统被迫适应快速发展的形势,即使是普通计算能力的最后一道堡垒也已崩溃。”
但它确实指出了超高速、低功耗硅片与更多通用芯片或小芯片之间平衡的架构。
“在人工智能领域,人们强烈要求将事物变得尽可能通用和可编程,因为没人知道下一个LLM事物何时会出现,并彻底改变他们做事的方式,”Blue Cheetah首席执行官Elad Alon说道。“你越是陷入困境,就越有可能错过潮流。与此同时,很明显,几乎不可能满足使用完全通用系统所需的计算能力,因此也几乎不可能满足功率和能源要求。人们强烈要求定制硬件,使其在当今已知的特定事物上更加高效。”
挑战在于如何高效地将软件映射到这种异构处理器阵列上,而目前业界尚未完全掌握这一技术。共存的处理器架构越多,映射问题就越困难。“现代芯片中有一个GPU、一个神经处理单元,还有核心处理,”Arteris解决方案和业务开发副总裁Frank Schirrmeister在接受采访时表示(他目前担任Synopsys战略项目和系统解决方案执行董事)。“你至少有三个计算选项,你必须决定将东西放在何处,并设置适当的抽象层。我们过去称之为软件协同设计。当你将算法或算法的一部分移植到NPU或GPU中时,你会重新调整软件,将更多的软件执行转移到更高效的实现中。计算中仍有一个通用组件支持不同的元素。”
追逐领先者
AI的出现得益于GPU的处理能力,图形处理所需的功能与AI核心部分所需的功能非常接近。此外,创建了软件工具链,使非图形功能能够映射到架构上,这使得NVIDIA GPU成为最容易定位的处理器。
“当有人成为市场领导者时,他们可能是市场上唯一的竞争者,每个人都会试图对其做出反应,”Keysight新机遇业务经理Chris Mueth表示。“但这并不意味着它是最优架构。我们可能暂时还不知道这一点。GPU适用于某些应用,例如执行重复的数学运算,在这方面很难被超越。如果你优化软件以与GPU配合使用,那么速度会非常快。”
成为通用加速器领导者可能会带来阻力。西门子EDA高级综合项目总监Russell Klein说:“如果你要构建通用加速器,你就需要考虑面向未来的问题。当NVIDIA坐下来构建TPU时,他们必须确保TPU能够满足尽可能广泛的市场,这意味着任何构想新神经网络的人都需要能够将其放入这个加速器中并运行它。如果你要为某个应用程序构建某个东西,则几乎不需要考虑面向未来的问题。我可能希望构建一点灵活性,这样我才有能力解决问题。但如果只是将其固定为一种能够非常好地执行一项工作的特定实现,那么再过18个月就会有人想出一种全新的算法。好消息是我将领先于其他所有人,使用我的定制实现,直到他们能够赶上他们自己的定制实现。我们利用现成的硬件能做的事情很有限。”
但特异性也可以分层构建。“IP交付的一部分是硬件抽象层,它以标准化方式向软件公开,”Schirrmeister说。“如果没有中间件,图形核心就毫无用处。应用程序特异性在抽象中向上移动。如果你看看CUDA,NVIDIA核心本身的计算能力相当通用。CUDA是抽象层,然后在其上具有用于生物学的各种事物的库。这很棒,因为应用程序特异性上升到更高的水平。”
这些抽象层在过去非常重要。Expedera首席科学家兼联合创始人Sharad Chole表示:“Arm在应用处理器之上整合了软件生态系统。此后,异构计算使每个人都可以在该软件堆栈上构建自己的附加组件。例如,高通的堆栈完全独立于苹果的堆栈。如果你将其延伸,就会有一个接口可用于获得更好的性能或更好的功率分布。然后就有了协处理器的空间。这些协处理器将允许你进行更多的差异化,而不仅仅是使用异构计算进行构建,因为你可以添加或删除它,或者你可以构建一个更新的协处理器,而无需启动新的应用程序流程,而这要昂贵得多。”
经济因素是一个重要因素。“接受C++或其他高级语言的完全可编程设备以及功能特定的GPU、GPNPU和DSP的普及减少了新设计中对专用、固定功能且财务风险较高的硬件加速模块的需求,”Quadric的Roddy说道。
这既是技术问题,也是商业问题。Blue Cheetah的Alon表示:“有人可能会说,我要做这个非常具体的目标应用,在这种情况下,我知道我将在AI或其他堆栈中做以下几件事,然后你只需让它们发挥作用。”“如果这个市场足够大,那么对一家公司来说,这可能是一个有趣的选择。但对于AI加速器或AI芯片初创公司来说,这是一个更棘手的赌注。如果没有足够的市场来证明整个投资的合理性,那么你必须预测尚不存在的市场所需的能力。这实际上是你正在采取什么样的商业模式和赌注的混合体,因此可以采取什么样的技术策略来尽可能地优化它。”
专用硬件的情况
硬件实现需要选择。Expedera的Chole说:“如果我们可以标准化神经网络并说这就是我们要做的全部,那么您仍然必须考虑参数的数量、必要的操作数量以及所需的延迟。但情况从来都不是这样的,尤其是对于AI而言。从一开始,我们就从224 x 224的邮票图像开始,然后转向高清,现在我们要转向4k。LLM也是一样。我们从300兆位模型(例如Bert)开始,现在我们要朝着数十亿、数十亿甚至数万亿的参数迈进。最初我们只从语言翻译模型(例如令牌预测模型)开始。现在我们有了多模式模型,可以同时支持语言、视觉和音频。工作量在不断发展,这就是正在发生的追逐游戏。
现有架构有许多方面值得质疑。Mythic首席执行官兼联合创始人Dave Fick表示:“设计一个好的系统的关键部分是找到系统性能的显著瓶颈并找到加速它们的方法。”“人工智能是一项令人兴奋且影响深远的技术。然而,它需要每秒数万亿次操作的性能水平和标准缓存和DRAM架构完全无法支持的内存带宽。这种实用性和挑战性的结合使人工智能成为专用硬件单元的首选。”
通用设备数量不足以满足需求,这可能是迫使行业开始采用更高效硬件解决方案的因素。“生成式人工智能领域的进展非常快,”Chole说。“目前没有任何东西可以在成本和功率方面满足硬件的要求。什么都没有。甚至GPU的出货量也不够。有订单,但出货量不够。这是每个人都看到的问题。没有足够的计算能力来真正支持生成式人工智能的工作负载。”
小芯片可能有助于缓解这个问题。“即将到来的小芯片海啸将加速数据中心的这种转变,”Roddy说。“随着小芯片封装取代单片集成电路,混合和匹配完全可编程CPU、GPU、GPNPU(通用可编程NPU)和其他处理引擎以完成特定任务的能力将首先影响数据中心,然后随着小芯片封装成本随着产量的增加而不可避免地降低,慢慢辐射到更大批量、更成本敏感的市场。”
多个市场,多个权衡
虽然大多数注意力都集中在训练新模型的大型数据中心上,但最终的收益将归于使用这些模型进行推理的设备。这些设备无法承担用于训练的巨额电力预算。“用于训练人工智能的硬件有点标准化,”Ansys产品营销总监马克·斯温宁(Marc Swinnen)说。“你购买NVIDIA芯片,这就是你训练人工智能的方式。但是一旦你建立了模型,你如何在最终应用程序中(也许是在边缘)执行该模型。这通常是为该人工智能算法的特定实现量身定制的芯片。获得高速、低功耗人工智能模型的唯一方法是为其构建定制芯片。人工智能将成为执行这些模型的定制硬件的巨大驱动力。”
他们要做一系列类似的决定。“并不是每个AI加速器都是一样的,”Mythic的Fick说。“关于如何解决AI带来的内存和性能挑战,有很多很棒的想法。特别是,有新的数据类型可以一直到4位浮点甚至1位精度。可以使用模拟计算来获得极高的内存带宽,从而提高性能和能效。其他人正在考虑将神经网络精简到最关键的位,以节省内存和计算。所有这些技术都将产生在某些领域强大而在其他领域薄弱的硬件。这意味着更大的硬件和软件协同优化,以及需要建立一个具有各种AI处理选项的生态系统。”
这正是AI和RISC-V的利益交汇之处。Sigasi首席执行官Dieter Therssen表示:“在LLM等软件任务方面,它们将占据主导地位,足以推动新的硬件架构,但不会完全停止差异化,至少在短期内不会。”“即使RISC-V的定制也是基于进行一些CNN或LLM处理的需求。这里的一个关键因素是如何部署AI。目前,有太多方法可以做到这一点,因此成像融合仍然遥不可及。”
结论
AI是新兴事物,发展速度如此之快,以至于没有人能给出明确的答案。对于现有的应用程序来说,最佳架构是什么?未来的应用程序是否看起来足够相似,以至于现有架构只需扩展?这似乎是一个非常幼稚的预测,但今天它可能是许多公司的最佳选择。
GPU和在其之上构建的软件抽象使AI的快速崛起成为可能。它为我们看到的扩展提供了足够的框架,但这并不意味着它是最高效的平台。模型开发在一定程度上被迫朝着现有硬件支持的方向发展,但随着更多架构的出现,AI和模型开发可能会根据可用的硬件资源及其对电力的需求而出现分歧。电力很可能成为主导两者的因素,因为目前的预测是,AI将很快消耗掉全球发电能力的很大一部分。这种情况不能继续下去。