本文来自微信公众号“AI芯天下”,作者/方文三。
通用CPU和GPU服务平台在功耗和散热受限的终端上的运用,其差异性需求难以应对AI用例严苛且多样化的计算要求。
算力是实现AI PC各项功能的前提,终端异构混合(CPU+NPU+GPU)算力或许是AI规模化落地的要求。
[CPU+NPU+GPU]将成为AI PC的算力基座
不同类型的处理器擅长的工作领域各异,这正是异构计算的核心原理——让专业的人做专业的事。
CPU擅长顺序控制,适用于需要低延时的场景,同时也能够处理较小的传统模型,如卷积神经网络(CNN)或特定的大语言模型(LLM)。
而GPU更擅长处理高精度格式的并行任务,例如对画质要求极高的视频和游戏。
CPU和GPU作为通用处理器,设计灵活,易于编程,主要负责操作系统、游戏和其他应用。
然而,对于处理大规模的神经网络计算,CPU的效率相对较低。
NPU则采用数据驱动并行计算的架构,模拟人类神经元和突触,特别擅长处理视频、图像等海量多媒体数据。
与遵循冯诺依曼架构的CPU和GPU不同,NPU通过突触权重实现存储计算一体化,运行效率更高,尤其擅长推理。
鉴于终端的功耗和散热限制,通用CPU和GPU难以满足生成式AI应用严苛且多样化的计算需求。
这些应用不断演进和多样化,单一硬件部署并不合理。
因此,NPU和异构计算成为硬件厂商应对终端侧生成式AI挑战的关键。
值得注意的是,尽管GPU在并行计算能力上具有优势,但仍需与CPU协同工作。
神经网络模型的构建和数据流传递主要在CPU上完成。
然而,GPU存在功耗高、体积大、价格昂贵等缺陷。
性能越高的GPU功耗越高,体积越大,价格也越高昂,这使得一些小型设备和移动设备无法使用。
NPU将在AI PC落地生花
网络处理单元(NPU)能够基于网络运算的特性,借助软件或硬件编程,实现多样化的网络功能。
相较于传统的中央处理器(CPU)和图形处理器(GPU),NPU在执行神经网络任务时展现出更高的效率和更低的功耗。
与现场可编程门阵列(FPGA)相比,NPU在成本方面更具优势。
虽然FPGA在灵活性和可编程性方面同样出色,但主流的FPGA芯片制程节点通常在14纳米至45纳米之间;
而NPU的制程节点往往低于10纳米,因此更适合应用于小型、低功耗的消费级设备,如个人电脑和手机等。
在软件层面,NPU具备与主流软件的高度兼容性。通过标准化的接口,如OpenCL、CUDA、OpenVX等,NPU能够轻松与各种人工智能框架进行交互,并顺利集成到不同的软件环境中。
这使得开发者在模型开发和部署方面更加便捷,同时支持多种编程语言和框架,进一步降低了开发门槛。
综上所述,NPU的高效能、低功耗、易于编程以及广泛的软件兼容性,使其成为人工智能应用中不可或缺的关键组件。
趋势看好,各大厂纷纷推出相关产品
英特尔近期发布了第14代酷睿Ultra移动处理器,该处理器内置了神经网络处理单元(NPU)。
据英特尔官方透露,预计至2024年,将有超过230款机型搭载这款酷睿Ultra处理器。
另一方面,苹果计划在2024年发布搭载M3处理器的MacBook。
据该公司透露,M3处理器的NPU性能相较于前代产品M1提升了60%。
此外,AMD亦将在2024年初正式推出其首款内置独立NPU的锐龙8040处理器。
AMD表示,该处理器的加入使得大语言模型性能提升了40%。
值得一提的是,AMD于2023年12月率先发布了锐龙8040系列处理器。这一系列处理器的核心变化之一便是新增了AI计算单元。
随后,英特尔亦发布了其新一代酷睿Ultra移动处理器。
这款处理器是英特尔40年来的首款内置NPU的产品,旨在在PC上提供高效能的AI加速和本地推理体验。
此举被业界视为英特尔客户端处理器路线图的重大转折点。
英特尔将NPU、CPU和GPU共同视为AI PC的三个核心算力引擎。
据公司预测,至2024年,将有超过230款机型搭载酷睿Ultra处理器。
此外,微软计划在Windows 12中为AI PC设定最低门槛,要求至少具备40TOPS的算力和16GB的内存。
因此,PC芯片算力达到40TOPS门槛将成为行业的主要目标。
[算力融合]只是美好的理想
在GPU领域,英伟达RTX系列、AMD RX7000系列以及英特尔ARC系列独立显卡均内置独立的AI计算单元。
然而,英伟达并不生产消费级PC CPU,因此其显卡AI功能更新主要围绕显卡本身,如AI视频超分、AI色彩强化、AI音频降噪及AI语音聊天等,似乎主张[AI PC仅需显卡算力]。
英特尔ARC独显虽有XMX矩阵计算单元,但新一代集成于CPU的ARC核显已取消此设计,使其MTL架构CPU仅依赖内置NPU作为独立AI计算单元。
即便搭配ARC独显,亦无法实现核显与独显AI算力的[叠加]。
AMD在CPU中采用源自其企业级计算卡的XDNA成熟架构作为NPU单元,理论上具有软件适配优势。
然而,在RDNA 3独显架构中,AMD似乎采用了不同的AI单元设计,导致尚未实现基于AI代码的游戏画面超分功能。
此前许多显卡AI用例主要依赖GPU本身的浮点算力,相较于仅使用显卡内置AI单元的处理方式,功耗更高。
理论上,CPU、GPU和NPU均可参与AI运算,并根据代码类型和任务负载实现自动分配的[异构协同]设计,如高通即将上市的骁龙X Elite系列所示。
然而,这种协同运算的实现受到当前硬件方案[各自为战]的产品构成限制。
英特尔和AMD未来可能通过架构修正解决[算力不统一]问题,而英伟达虽无消费级x86 CPU产品线,但仍有可能通过ARM CPU进入Windows on ARM生态。
结尾:
根据现有证据,NPU因其对神经网络计算的独特优化,在端侧和边缘侧处理复杂神经网络算法时展现出卓越的效率与节能特性。
这一现象正推动AI手机、AI PC及端侧AI市场的快速发展,预示着NPU的大规模商用时代即将到来。
部分资料参考:三易生活:《CPU、GPU、NPU,究竟谁才是[AI PC]的主角?》,中国电子报:《AI PC元年将至,NPU到底怎么用?》,国际电子商情:《一文看懂神经网络处理器(NPU):AI算力加速的新方向》,DeepTech深科技:《GPU之后,NPU再成标配,手机、PC如何承载AI大模型?》,半导体行业观察:《为何都盯上了NPU?》,科技行者:《为什么AI PC需要颗强大的NPU?》,与非网:《与GPU双向奔赴,NPU即将开启大规模商用时代》,电子发烧友网:《生成式AI加速向终端侧演进,NPU、异构计算提供强大算力支持》