本文来自微信公众号“半导体产业纵横(ID:ICVIEWS)”,【作者】编译自semiengineering。
由于人工智能和分解而加速的性能改进正在推动计算前沿的重大变革。
由于人工智能的普及,超级计算机和高性能计算机变得越来越难以区分,这推动了商业和科学应用性能的巨大提升,也给两者带来了类似的挑战。
虽然超级计算和高性能计算(HPC)的目标一直很相似(超快处理速度),但它们所服务的市场却截然不同。超级计算机(例如Top 500榜单上的超级计算机)通常是科学和学术计算的展示,其性能通常以百亿亿次浮点运算来衡量。另一方面,HPC的目标是更传统的应用,使用高带宽内存、快速处理器间通信和每秒大量浮点运算(FLOPS)。但随着对AI训练和推理的关注,这些计算架构之间的相似性正在增加。
“从根本上讲,HPC基于高带宽内存访问、快速且低延迟的处理器间通信以及大量单精度和双精度FLOPS,”Eliyan首席架构师Paul Hylander解释道。“在过去20年中,HPC一直依靠基于服务器的计算,因为HPC的容量不足以证明其本身需要专用网络、处理和内存开发。现在,随着大量资金投入AI计算,人们重新重视更高带宽的内存、更高带宽的网络和更好的散热解决方案——以及更重要的,芯片解决方案,以便能够扩展每个节点的计算量。”
如今,超级计算机可以分为两大类。Arteris产品管理总监Ashley Stevens表示:“有些超级计算机纯粹基于处理器,包括配备加速器的超级计算机,通常是GPU等。有些问题的代码可以追溯到几年前。有些甚至可以追溯到20世纪60年代的科学领域,如核建模等,而且只能在通用计算机上运行。但还有一类问题比较新,可以重新编码以在加速器系统上运行。因此,目前,性能最高的系统和最节能的系统将配备加速器,通常是GPU。”
具体来说,超级计算机之所以成为超级计算机,是因为它包含一个具有一致互连的节点,以及一个节点到节点互连,因此它们可以相互通信。“通常使用消息传递接口(MPI),”史蒂文斯说。“因此,有办法将问题拆分为多个节点,在两个节点之间使用MPI,或者有时使用远程DMA(rDMA),其中一台计算机可以将数据DMA传输到另一台计算机。这就是超级计算机的定义。它们具有系统间通信。”
混合策略
AI对超级计算和HPC都产生了深远的影响。过去五年来,异构环境中CPU和GPU的集成发生了重大变化。GPU曾经主要用于游戏和比特币挖矿,现在已成为加速AI计算任务的必备工具。GPU如此受欢迎的原因在于其可扩展性。
Alphawave Semi ASIC IP解决方案总监Shivi Arora表示:“一切都归结于系统所包含的内核数量。这取决于您是面向HPC数据中心,还是关注DPU/CPU类型的市场。HPC和超级计算机都朝着同一个方向发展。系统上可以安装的CPU数量决定了您要支持的市场。”
这种混合搭配的粒度为混合系统打开了大门,结合了经典计算、超级计算甚至量子计算,以满足各种应用程序的性能、可靠性和安全性需求。
是德科技流程和数据管理总经理兼业务部负责人Simon Rance表示:“总体而言,超级计算正在不断发展。但量子计算也正在真正获得发展势头。在高数学类型的计算应用中(需要以非常快、激进的速度进行计算),我们看到越来越多的超级计算进入量子计算。这是量子计算现在真正强大的领域。当它处理来自各种来源的信息时,例如对于人工智能来说,试图理解它试图实时处理的内容,这就是我们看到的超级计算的自然演变。”
然而,这加剧了一些常见的挑战。IBM高性能计算全球负责人CT Rusert表示:“当我们对比5年前和现在的超级计算机时,会发现它们取得了惊人的进步。我们的超级计算机能够以前所未有的速度进行百亿亿次级的建模计算,而5年前我们还做不到这一点。这也带来了挑战。随着我们成为一个更加注重能源和效率的社会,有了这些超级计算机,我们如何让它们更节能呢?”
如今,这些挑战已经跨越到两个计算领域,人工智能对更多马力提出了无尽的需求,以训练多模型并解决庞大而复杂的计算问题。Cadence战略与新业务集团总监Rob Knoth表示:“人工智能工厂的概念,即消费和生产代币,是一项计算密集型的研究。它正像野火一样蔓延,推动整个生态系统发生变化,包括人们对超级计算机的看法、消费设备中可接受的计算量、汽车中的计算规模、人形机器人或无人机的计算规模。需要大量的计算,而每种计算对功率计算、热范围、电网连接的要求都不同。它能在无需充电的情况下走动或飞行多长时间?“超级计算机”这个词因人工智能而改变,以及它如何改变人工智能,这真是令人着迷、美丽、可怕和鼓舞。超级计算机的规模使我们能够制作这些新前沿模型,制作这些多模式模型,能够开始谈论物理人工智能,谈论制造一个可维修的人形机器人所需的后果,以及它与汽车中的芯片或新数据中心中的芯片有何不同。”
关键推动因素
这种融合的核心是技术进步,例如高带宽内存、不同芯片内部和之间的高带宽通信以及可大规模扩展的基于小芯片的解决方案。所有这些都是满足人工智能需求的关键,因为人工智能需要强大的计算能力来训练多模态模型和执行推理任务。
“在年度超级计算大会上,过去五到七年来一直在讨论融合这个话题,”Rambus研究员、杰出发明家Steven Woo表示。“从最高层次来看,如果你看看500强榜单中的顶级超级计算机,你会发现它们不仅配备了传统CPU(例如英特尔或AMD的CPU),还配备了大量来自英伟达或AMD的显卡或AI引擎。如果你从高层次看这些专门的AI集群,你会发现它们并没有什么不同。至于AI引擎与传统CPU的比例,这将根据超级计算机或AI集群的构成而变化。但如果从30,000英尺的高度来看,它们非常相似。然后你会开始意识到人们在超级计算领域运行的许多基准测试在这些AI超级集群上也能很好地运行,反之亦然,因此这引发了更多关于融合的讨论。“是否需要有一类单独的机器专门服务于超级计算市场?同时,人工智能是否变得如此基础以至于这两者正在融合在一起?”
这种融合也带来了挑战。由于超级计算机消耗大量电力,因此能源效率和可持续性是主要问题。冷却系统和先进的封装技术对于管理热封套和确保高效电力输送必不可少。此外,数据移动的成本已经高于计算成本,因此需要采用新方法来最大限度地减少数据传输并提高整体系统效率。
人工智能中的许多技术驱动因素都进入了超级计算机,反之亦然。“如果你看看超级计算机项目,你会发现它们大多是由国家推动的,”Woo说。“美国的项目大约每10年运行一次。大约每五年左右,就会有一台新的超级计算机问世。因此,五年的时间用于研究和思考原型和其他东西,五年的时间用于执行以构建机器。三个最大的超级计算机项目包括一个由美国赞助的项目,日本一直赞助一个非常大的项目,然后中国有自己的项目。美国上一次做的超级计算机项目被称为Exascale项目。美国传统上表示下一个标准将比之前的机器性能高1,000倍,它被称为Exascale。此外,美国政府与工业界合作,为学术界和工业界提供大量投资资金来开发新技术,然后这些技术进入超级计算机。它们也进入了商业产品。”
人工智能也有助于缩小超级计算机和HPC之间的性能差距。“NVIDIA的Grace Blackwell去年问世,Rubin将于今年问世,因此您可以看到这一年的性能进步令人惊叹。两者都是极其重要的技术驱动因素,但人工智能目前似乎处于更快的发展周期。机器之间的目标不一定像超级计算机程序那样崇高,超级计算机程序的目标是性能提高1,000倍。在人工智能中,很难逐年做到这一点,但它们确实每一代都取得了巨大的进步。”
数据移动的挑战
超级计算发展面临的另一个压力是数据移动。“十多年来,人们已经充分认识到数据移动是一个大问题。Exascale计划进行了大量研究,并且有一些很棒的演示,如果你只是遵循技术发展曲线,你会发现数据移动的成本比计算成本更高,”Woo说。“当时有一些预测,以及经过深思熟虑和非常清晰的研究,它们得出结论,这将是一个问题。有几种方法可以解决这个问题。要么把组件放得更近,要么想办法制造现在人们所说的超级芯片。”
过去,问题在于光罩。“芯片尺寸只能这么大。但现在他们正在寻找方法来超越这个尺寸,将多个光罩大小的芯片拼接在一起,现在它们彼此紧挨着,所以如果你从五英尺外看,它看起来就像一个大芯片,它们连接在一个基板上,”Woo解释道。“所有这些都是由先进封装和业界一直在研究的基于HBM等技术实现的。人工智能、高性能计算和超级计算之间存在着良性互动,其中物理原理没有改变,问题很大,它们之间有细微的差别,但数据移动已被证明是最大的问题之一。你可以从逻辑上说,‘我们不要把数据移动太远’,但这又带来了行业必须解决的其他挑战,比如热问题。你如何处理热问题?我们知道液体冷却注定会在未来几年成为主流。另一个挑战是电力输送。我如何将所有的功率、电流和电压集中到这个相对较小的区域?我们以前不常这样做。这并不是说我们做不到。这更像是寻找经济的方法。你如何以一种非常易于制造的方式来做到这一点?”
所有这些也带来了一些复杂的分区挑战,因为距离会影响获得结果的时间。“我们现在拥有如此强大的处理计算能力,但我们现在面临着处理器之间的延迟问题,以及处理和显示或实时返回结果的问题,”Keysight的Rance说。“这是我们从超级计算发展而来的一部分。这不仅仅是一台超级计算机在计算一些东西。它是信息共享,并将其带回,然后在一毫秒内做出决定。”
准确性现在是个问题
而人工智能又带来了另一个问题。与传统计算不同,人工智能是概率性的。结果基于分布,而分布并不总是完全准确的。这在超级计算中是不可接受的。
“它需要不同的精度,”Arteris的Stevens说。“在科学计算中,通常使用双精度64位,偶尔使用32位。但这些AI东西可能只使用8位或16位。OpenAI显然是AI,而不是传统的超级计算机类型的应用程序,但运行多年前的代码是有要求的。最近很多都是AI训练。我过去参与的事情更多是尝试以良好的性能运行60年代的旧Fortran代码。今天,最高效的机器是带有加速器的机器,因为一般来说,硬件越专业,效率就越高。它越通用,效率就越低。GPU只适合某些东西。如果某些代码是用Fortran编写的,那么完成它并不容易。即使它们支持,虽然它们支持IEEE浮点,但它们不一定支持普通计算机支持的所有不同模式和极端情况。因此,它们适用于某些类型的问题,但不一定适用于所有类型的问题。我们现在看到的可能是越来越多的专业化,尤其是在人工智能领域。你已经看到了这一点,人们更专注于一个特定的问题,而不是更通用的计算。这使得它更有效率。”
不仅仅是技术
除了技术层面,“超级计算机”一词还具有重要的文化和启发价值。它代表着技术的最前沿,是下一代工程师和科学家的灯塔。
“超级计算机不仅仅与工程有关,”Cadence的Knoth说道。“在超级计算大会上,很多人会告诉你‘超级计算机’的确切科学定义,但我认为这并不重要。‘超级计算机’这个词对于科学交流比对于科学更重要。它具有力量,因为它随着时间而变化。房间里有ENIAC的照片,然后人们从口袋里掏出手机说,‘我这里有它。’所以,对我来说,超级计算机这个词在文化和激励背景下比在技术背景下更重要。超级计算机有助于激励下一代工程师。它们是一个有助于使我们的工作民主化以帮助其他人了解工程领域正在发生的事情的术语。超级计算机揭示了最前沿的事物。我们要去哪里?我们为什么要去?我们正在解决哪些真正酷的问题?与许多摆在你面前的东西相比,他们是开拓者。”
能源效率和可持续性的作用
随着超级计算和HPC系统的不断发展,能源效率和可持续性已成为关键考虑因素。这些系统的巨大计算能力需要大量的能源。
为了解决这些问题,研究人员和工程师正在开发新技术和新方法,以提高超级计算和HPC系统的能源效率。这包括使用先进的冷却系统来管理热包络并降低能耗。此外,他们还在努力优化这些系统的设计和架构,以最大限度地降低功耗并提高整体效率。
很多人认为HPC和超级计算面临的最大挑战是能耗和功耗。“举个最坏的例子,微软、OpenAI和软银宣布的星际之门系统将需要5千兆瓦的电力,”Arteris的史蒂文斯说。“这比英国或美国的任何核电站都要大,尽管世界上也有一些这么大的核电站。在其他国家,典型的核反应堆大约为1或1.5千兆瓦,因此星际之门将需要其中的三个。建造一座核电站至少需要10年。到那时他们还在建造同样的东西吗?我们这个行业的发展非常快,所以你可以想象为它建造一个发电站。你的目标可能不是你10年后最终做的事情。最大的挑战之一是功耗。目前顶级超级计算机需要大约30兆瓦的电力,有些甚至更多。近15年前,我曾参与过一项关于富岳超级计算机的研究。当时,人们认为极限是10兆瓦。但现在我们的系统耗电量是30兆瓦的三倍,而且他们计划建造一座千兆瓦级的发电厂。因此,能源效率将变得非常重要。计算性能的极限实际上是能耗,而这一点尚未得到真正考虑。”
以不同方式将各个部件组合在一起
超级计算机为大规模异构集成铺平了道路。小芯片概念将这种方法带到了封装级别。
Alphawave Semi的chiplet首席产品线经理Sue Hung Fung表示:“我们现在将所有这些不同的东西都放在一个封装中。这只是一个被分解的大型单片芯片。然后我们将所有这些都放入一个封装中,这是一个系统级封装,我们正在为AI/ML构建这些东西,因为我们看到数据中心中大量数据的巨大驱动力,并为AI进行LLM训练和推理。根据我们在计算中放入的内核类型,我们可以从中获得什么样的性能。这将特定于该应用程序用例,取决于内核的类型,取决于您使用多少个内核。”
这是一台超级计算机,还是一台高性能计算机?还是介于两者之间?答案并不总是显而易见的,而且随着给定时间内计算量的不断增加,答案也变得越来越不明显。