CPU跑AI，不被时代抛下的自救

2023-10-08 13:51

与非网eefocus

张慧娟

根据当前所观察到的算法方向以及实际案例来看，在CPU上运行AI工作负载拥有显著优势，包括更低的延迟以及更高的能效，比如避免在CPU和加速器之间来回移动数据，可以极大地降低能源消耗，这也是CPU的一个显著优势。

本文来自与非网eefocus，作者/张慧娟。

从1964年第一台计算机系统IBM 360引入CPU，迄今约60年，不论是PC、台式电脑主机，还是大型商用主机，CPU一直是计算机工业发展史上的主角。然而，随着AI应用来临，加速计算盛行，GPU和各类AI计算芯片崛起，CPU遭遇前所未有的挑战。

在加速计算的世界，CPU落伍了吗？特别是随着生成式AI席卷业界，算力需求暴增，CPU中央处理器的地位是否还如其名？

“CPU扩张的时代已结束”

黄仁勋就明确表达过，加速计算和人工智能重塑了计算机行业，CPU扩张的时代已经结束了。当下需持续提升运算能力的数据中心需要的CPU越来越少，需要的GPU越来越多，我们已经到达了生成式AI的引爆点。

在他看来，全球价值1万亿美元的数据中心基本上都在使用60年前发明的计算模式，而现在，计算已经从根本上改变，如果你明年再买一大堆CPU，计算吞吐量仍难以增加，必须使用加速计算平台去处理。

他指出了CPU通用计算和加速计算的根本区别：尽管CPU如此灵活，基于高级编程语言和编译器，几乎任何人都能写出相当好的程序，但是它的持续扩展能力和性能提升已经结束。加速计算则是个全栈问题，必须从上到下和从下到上重新设计一切，包括芯片、系统、系统软件、新的算法优化以及新的应用等，还需要针对不同领域进行不同的堆栈，而这些堆栈一旦建立起来，就会彰显出加速计算的惊人之处。

不过，换一个角度来看，GPU尽管性能强悍，但通常只能执行深度学习这样的特定应用，它还需要CPU的协助，来进行数据的搬运、控制，以及一系列的预处理和后处理任务。而CPU具有独立运算能力，可以独立运行操作系统和应用程序。如果说绝对点，一台计算机可以只有一个CPU，但是不能只有一个GPU。

也正是由于CPU的不可替代性，黄仁勋虽然预判了CPU暴力扩张的时代结束，但另一方面，却曾试图斥巨资收购Arm，以补齐生态短板。并且，英伟达专门面向数据中心推出基于Arm Neoverse内核的Grace CPU，来满足新时代数据中心的性能和效率需求。

CPU不会被完全取代，我们只是来到了新计算时代的临界点。

“始终相信CPU跑AI推理有价值，

也是极其普遍的”

数据中心在AI时代的重要性不言而喻，多年来，英特尔至强处理器在数据中心一直扮演着重要角色。当前，英特尔至强处理器该如何应对AI的趋势和挑战？如何应对加速计算的冲击？

英特尔资深院士、至强首席架构师Ronak Singhal告诉<与非网>，“AI的发生不仅在各类加速器上，更在我们‘老生常谈’的CPU上。实际上，眼下大部分的推理工作都是在CPU上运行的。我们始终相信CPU上的推理是非常有价值的，也是极其普遍的。为了让其在CPU上运行，我们需要继续讨论‘加速’。我们一直在探索，如何去提高CPU的能力，使它始终是运行这些推理工作负载的最佳载体。”

他补充，根据当前所观察到的算法方向以及实际案例来看，在CPU上运行AI工作负载拥有显著优势，包括更低的延迟以及更高的能效，比如避免在CPU和加速器之间来回移动数据，可以极大地降低能源消耗，这也是CPU的一个显著优势。

根据英特尔方面提供的数据，目前25%在售的至强被用于AI工作负载。其中，很大一部分用于推理，一小部分用于训练。此外，许多至强产品还用于在训练或推理之前的一些工作，如数据准备（包括为至强和GPU提供数据）。

英特尔副总裁、至强产品和解决方案事业部总经理Lisa Spelman表示，为满足AI工作负载的需求，至强已经具备诸多加速器和专业功能，且这些日渐成为至强越来越重要的方向。在海量数据、复杂数据处理等需求下，能源效率成为至强转变设计的关键因素。将于明年推出的第六代至强就引入了新的体系结构：Granite Rapids（性能核/P-core产品）和Sierra Forest（能效核/E-core产品），有望进一步提升算力和效率。

Granite Rapids的产品升级有两个要点：一是如何增强算力。其中最重要的是在第四代至强基础上增加了核数，以及继续提高能效。因为进行大量AI矩阵计算时，耗电量会大幅提升，Granite Rapids通过内置的加速器能够为目标工作负载提供显著的性能和效率提升。二是内存带宽。部分AI工作负载以计算为核心，因此将受到核数和能效的影响。还有部分大语言模型，需要处理包括计算、存储等AI工作负载，因此对内存带宽提出了要求。

与Granite Rapids相比，Sierra Forest的核心则更节能，且面积较小，因此，可以在相同功耗下进行扩展、并增加核数，最高可达288核。

对于云服务提供商来说，将尽可能多的用户整合到一个系统上，能够帮助他们减少所需的系统数量，从而降低TCO，这时就可以选择大核数的CPU（Sierra Forest）；如果他们需要每个核心拥有最佳性能，他们则可以选择Granite Rapids。

值得注意的是，chiplet、先进封装、最新的内存技术等，在这两款产品中都发挥了重要作用。从下图可知，顶部和底部的I/O chiplet设计，包括PCIe、CXL等。这些功能在Sierra Forest和Granite Rapids之中都很常见。可以根据实际需求，采用更多或更少的chiplet，来扩大或减少核心数量。chiplet的方式既实现了构建芯片的灵活性，同时也有助于提升制造能力。

此外，EmiB封装（英特尔的2.5D先进封装技术）也发挥了重大作用。通过EmiB封装，多个独立的计算chiplet和I/O chiplet，在单一芯片中进行了集成，使得芯片结构更为灵活，实现了通用IP、固件、操作系统、平台的有机整体。

除了数据中心，客户端处理器AI方面，英特尔的酷睿Ultra处理器也将首次集成NPU，用于在PC上实现AI加速和本地推理体验。

“AI处于早期快速发展阶段，

不相信护城河”

面对AI的冲击，苏姿丰表示，“对于人工智能，尤其是生成式人工智能如何进入市场，我们还处于起步阶段。我认为我们谈论的是一个10年的周期，而不是‘未来两到四个季度你能生产多少GPU’”。她表示，人工智能发展太快，不相信护城河。

数据中心被AMD作为首要的战略重点。

由于数据中心应用端的算力需求仍在不断增加，而chiplet设计有利于堆算力。AMD在chiplet技术已经享有先发优势，在2019年推出的Zen2架构中，AMD就采用了chiplet设计，使用8块CPU芯片实现64核，是当时英特尔性能最佳处理器的两倍。

去年发布的基于Zen4架构的霄龙处理器，具有96个核心192个线程。而最新的代号为Bergamo的霄龙处理器，采用Zen4c架构，将会搭载128个核心256个线程。Zen4c是AMD专门为云计算场景打造的一款CPU核心，与Zen4架构保持相同的IPC性能和ISA指令集，通过设计优化，使得核心面积缩小，功耗效率提升。这也意味着最新霄龙处理器的核心密度优势，将可以使云服务提供商能够支持超过两倍的服务器实例数量。

在前不久的AMD数据中心和AI首映式中，AMD对比了霄龙EPYC 9654和Intel至强Xeon 8490H的性能，EPYC 9654比Xeon 8490H高80%，Java编译性能高70%，云计算性能(整数)高80%。苏姿丰称，AMD的Epyc在前10名最快的超级计算机中的占据了5台，包括Frontier，这是第一台使用惠普企业硬件构建的百亿亿次计算计算机。

目前，AMD的服务器CPU份额也不断提高，从2017年第四季度的0.8%到2023年第一季度的18%。预计2024年份额达到20%，2027年份额达到25%。

除了服务器CPU，AMD在笔记本电脑CPU也在大刀阔斧地引入AI，锐龙7040系列通过集成AI引擎，能够帮助用户加速多任务处理，提高生产力和效率。据AMD官方说明，锐龙AI引擎的峰值算力可以达到10 TOPS，能够应对日常的AI推理负载设计，相较于外置AI运算芯片，可实现毫瓦级的低功耗AI运算，助力实现本地化的AI运算。

CPU加速AI，尚能战否？

提到AI加速，第一反应通常是强大的GPU或专用的AI加速芯片，但CPU通过内置AI计算，优化底层指令集、矩阵运算加速库、神经网络加速库等方式，在AI推理领域表现出了当仁不让的态势。那么，CPU加速AI推理具体有哪些优势？

英特尔方面表示，经过多年的发展，CPU加速推理过程性价比更高。例如至强可扩展处理器的强大算力可以极大提高AI推理效率，并兼顾成本与安全性。在指令集方面，CPU指令集是计算机能力的核心部分，英特尔的AVX-512指令集通过提升单条指令的计算数量，从而可提升CPU的矩阵运算效率。并且在加速训练环节，DL Boost把对低精度数据格式的操作指令融入到了AVX-512指令集中，即AVX-512_VNNI（矢量神经网络指令）和AVX-512_BF16（bfloat16），分别提供对INT8（主要用于量化推理）和BF16（兼顾推理和训练）的支持。

例如在企业落地AI模型的场景中，CPU服务器部署已经非常普遍，而大多数AI实际要求的是并发量，对推理速度没有特别高的要求，并且在制造业、图像等行业，模型也不会太庞大，这种情况就适合使用CPU作为计算设备。

此外，学术界正在研究轻量级神经网络，目标是使用较少的参数和较低的算力达到同样性能与效果。在这一情况下，用CPU训练轻量级神经网络被认为可能是一个性价比较高的选项，因为相对GPU，CPU一方面减少了数据的反复转移，训练更高效；并且面对轻量神经网络的训练工作，CPU性能已足够，且成本比GPU大幅降低。

写在最后

传统CPU在处理大规模数据和复杂算法时显现出了性能瓶颈，随着AI发展和应用场景的继续扩大，需要更强大的计算能力和存储能力等支持。因此，传统CPU架构不得不引入AI，以适应市场需求。

两大CPU巨头激战正酣，已经面向云边端场景全面引入AI，通过优化架构、提高能效等措施，提高CPU性能和效率。就连GPU巨头英伟达，也开始面向AI数据中心，推出专有的CPU。

AI时代，CPU作为计算机的核心部件，在计算机系统中的地位仍有其不可替代性，也有巨大的想象空间。试想，随着AI的普及，如果未来每个工作负载都嵌入AI，那么是否意味着每次运行AI工作负载时，都离不开CPU？选择AI，拥抱AI，成为AI，是CPU在新时代的宿命。

THEEND

免责声明：凡注明为其它来源的信息均转自其它平台，由网友自主投稿和发布、编辑整理上传，对此类作品本站仅提供交流平台，不为其版权负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。若有来源标注错误或侵犯了您的合法权益，请作者持权属证明与本站联系，我们将及时更正、删除，谢谢。联系邮箱：xiali@infoobs.com

本月热门

精选文章

热点资讯

国内半导体人才从短缺走向过剩

CPU跑AI，不被时代抛下的自救

2025 信息化观察网

长按扫描二维码阅读原文