本文来自微信公众号“半导体产业纵横”,【作者】鹏程。
距离AI PC推出的概念炒作已经一年有余了,但似乎“雷声大,雨点小”。市场和消费者似乎也并不买账。AI PC真的“AI”吗?什么才是真·AI PC?看看真正的AI大厂给的答案吧。
01 AI PC概念的兴起
AI PC是Artificial Intelligence Personal Computer的简称,最早由英特尔于2023年9月提出,短短时间内获得业内广泛青睐,尽管发展时间不长,但业内普遍认为,AI PC将会是PC行业的转折点。而Canalys对AI PC的定义为配备专用AI芯片组或模块(如NPU)的台式机和笔记本电脑,用于处理AI工作负载。
2024年被业界公认为AI PC应用的元年,各大企业纷纷推出了自己的AI电脑。
3月初,苹果发布AI PC MacBook Air。3月18日,荣耀发布公司首款AI PC MagicBook Pro 16,紧接着,AMD董事会主席及CEO苏姿丰宣布AMD锐龙8040系列AI PC处理器已经实现出货。3月22日,微软宣布推出Surface AI PC。4月11日,华为发布新款MateBook X Pro笔记本电脑,首次应用华为盘古大模型。
某种程度上来说,强绑定AI概念的PC业确实有了起色。2024年第四季度,AI PC出货量达到1540万台,占季度PC总出货量的23%。2024年全年,AI PC占PC总出货量的17%。其中,苹果以54%的市场份额领跑,联想和惠普各占12%。受Windows 10服务停止带来的换机潮,AI PC的市场渗透率将在2025年继续提升。但这其中究竟有多少AI含量?
02 AI PC:雷声大雨点小
2024年2月23日,联想CEO杨元庆在最新财报发布后表示,预计2024年全球PC出货量将同比增长约5%。尽管面临一些挑战,但他坚信人工智能将是推动联想业务增长和重塑的关键因素。
然而,杨元庆也指出,目前AI PC市场还处于初级阶段,尽管“雷声大”,但实际销售量和用户接受度还相对较低。他认为,这主要是由于技术成熟度、用户教育以及市场接受度等方面的原因。
对于已经发布的AI PC产品,不少人并不认可,核心在于这些AI PC中“AI”与“PC”(硬件)基本是分离的。以目前PC上最大的AI用例——微软Copilot来说,在英特尔与微软对AI PC的联合定义中,强调必须配备混合架构芯片、Copilot及其对应的物理按键。但事实是,所有升级到最新Windows 11版本的PC都能使用Copilot,因为Copilot只依赖于微软Azure云端算力,与PC硬件本身无关。
而作为掌握核心科技的AI芯片老大,英伟达根本就不理微软的定义,试问又有谁能比英伟达更有AI的话语权?而英伟达很早就开始布局AI领域的生态,自1993年成立以来,一直是加速计算领域的先驱,拥有最广泛CUDA生态应用的AI生产力,带有N卡独显的高性能PC,不那么依赖于OEM的适配,不但可以运行轻量极的AI工具,比如本地的大语言模型,简单的Stable Diffusion绘图,甚至可以玩中等规模的AI模型,实际使用的生成速度,也比普通核显玩AI快得多。
之所以现在AI PC受到市场冷遇,主要有以下几点原因:
1、现阶段AI PC搭载的NPU算力不足
Intel NPU的AI性能最高为48TOPS,Intel Xe核显大约28TOPS。搭载核显的AI PC算力目前在10-45 TOPS这个量级,而搭载GeForce RTX 40系列GPU的设备,涵盖了笔记本电脑和台式主机,能提供200-1400 TOPS不同级别的产品方案选择。
而今年发布的RTX 5090显卡采用了NVIDIA的Blackwell架构,这使得它在性能上有了质的飞跃。据NVIDIA官方介绍,RTX 5090的AI算力达到了4000 TOPS,是上一代Ada Lovelace架构的三倍。
NPU的AI算力与GPU相比可谓是弟中弟。
事实上主流的那些常见AI应用方面,本地上哪怕单块RTX 4080、4090也不见得多充沛,可想而知NPU这点算力也确实没有太多作用。
2、NPU不带DRAM,无法单独支撑大模型运行
目前的AI大模型从硬件需求来说都是“DRAM的大模型”。NPU天生不带DRAM,依赖系统RAM。也就是运行大模型必须另配64G以上的DRAM以配合NPU——都加码到这份上了,这为啥不直接用APU/GPU跑呢,都要加钱了,让谁跑不是跑?
而且APU和GPU跑AI大模型是开源适配好的,可谓是开箱即用。
3、NPU适配应用少,应用范围窄
理论上,现在NPU上已经能跑LLM大语言模型、stable diffusion图片生成、常见CV神经网络的推理(包括Resnet、yolo)、whisper语音转文字。基本上所有的AI推理负载,本质上就是矩阵运算,都能够通过NPU来实现低功耗运行。
但实际上现在用户买到的Windows笔记本电脑,能够调用NPU的应用场景是Windows Studio Effect里面的背景虚化、剪映抠图。应用范围实在是太窄了。NPU支持的本地程序截止目前非常少。
总体来说,目前NPU实际能用的功能都是一些花拳绣腿。这一轮AI真正火起来,还是因为大家看到ChatGPT这样的聊天机器人能够解决很多问题。所以如果真的要让NPU发挥作用,还是需要能运行LLM大语言模型,而显然当前AI PC上的NPU无法满足需求。
NPU还是GPU不重要,但本地化的AI很需要。而目前来看,是不是AI PC并不重要,有没有搭载NVIDIA GPU比较重要。
03 三大厂的“真·AIPC”
此前虽然一些厂商宣传推出了AI PC产品。但实际上却至少噱头居多,只是搭载了NPU芯片,而没有真正的本地大模型运行。既不能训练、也不能推理。
AI PC的概念被广泛宣传在笔记本电脑上。然而,现在没有任何一台轻薄本,称得上是高算力的AI专用计算设备PC,反倒是传统的高性能游戏本,搭载强大GPU显卡的台式机,可以真的去提供真正的AI生产力。
真·AI PC还是得看能开发高性能GPU的厂商,比如英伟达和AMD。
而就在今年年初CES上,AMD发布了AI Max 300Strix Halo。黄仁勋也发布了Project DIGITS。再加上此前苹果公司的Mac Pro。这三个是本地部署大模型的利器。堪称“桌面AI超级电脑”。
AMD发布的Strix Halo有两种:消费级的Strix Halo---主要用于消费性能笔电(游戏本)和商用级的Strix Halo Pro---主要用于移动工作站。曝光的3DMark测试数据显示,其旗舰型号Ryzen AI MAX+395有16个基于Zen 5架构的CPU核心,32线程;40个基于RDNA 3.5架构的GPU核心,即Radeon 8060S核显;最高120W,是标准移动APU的3倍;支持四通道LPDDR5X内存,提供高达256 GB/s的带宽。值得注意的是,集成的Radeon 8060S核显性能竟达到前代Radeon 890M的三倍以上,甚至逼近RTX 4060独显水平。
英伟达将其发布的Project DIGITS称之为“目前体积最小的AI超算”。Project DIGITS使用了一颗定制的“GB10”超级芯片,它在一个核心里融合了基于Blackwell架构的GPU,以及NVIDIA与联发科、ARM三方合作研发的Grace CPU。资料显示,其中的Blackwell GPU能够提供1PFLOPS的FP4算力,同时Grace CPU则包含了10个Cortex-X925核心和10个Cortex-A725核心。在GPU和CPU之间,则是通过大型超算同款的NVLINK-C2C芯片到芯片互联总线连接。
Project DIGITS还配备了一颗独立的NVIDIA ConnectX互联芯片,它可以让“GB10”超级芯片内部的GPU兼容多种不同的互联技术标准,其中包括NCCL、RDMA、GPUDirect等,从而使得这颗“大核显”可以被各种开发软件和AI应用直接访问。
而苹果则在2023年发布了M3系列芯片并配备了下一代GPU,代表了苹果芯片图形架构史上最大的飞跃。不仅速度更快、能效更高,并且还引入了称之为“动态缓存”的新技术,同时首次为Mac带来了硬件加速光线追踪和网格着色等新渲染功能。渲染速度现在比M1系列芯片快2.5倍。值得注意的是,全新的M3系列芯片带来最高128GB的统一的内存架构。苹果称,对高达128GB内存的支持解锁了以前在笔记本电脑上无法实现的工作流程,例如人工智能开发人员使用具有数十亿参数的更大的Transformer模型。去年苹果有发布了M4 Pro芯片,性能号称超越AI PC芯片。
而这三者都采用了一种叫做统一内存架构的技术。统一架构的好处,就是把以前内存和显存(显卡的内存)做了统一,这样就减少了CPU和GPU通信时候,在内存和显存之间数据通信时候的拷贝。此外,这一技术也能使电脑显存更大,从而可以打破消费级显卡在运行大模型时候显存不足的困境。值得注意的是,统一内存设计不是英伟达首创,苹果M1才是第一例。
04 Deepseek开启桌面AI超级电脑之战
近一段时间以来,DeepSeek线上算力的严重不足,带火了大模型本地部署需求,三大厂的“真·AI PC”也都开始厂商部署DeepSeek。
而DeepSeek作为一款MoE模型对显存要求高,对算力/内存带宽要求相对低。这也给了这些通过统一内存技术而拥有大显存的桌面AI超级电脑可乘之机。
之前有国外大佬用8台M4 Pro Mac mini跑DeepSeek V3。同样的,预计可以利用四台Project DIGITS来部署DeepSeek V3,而且生成速度应该也会快很多。根据AMD自己的公布,strix halo架构APU可以部署70B的模型,比4090快2.2倍,功耗低87%。
有网友表示,“打算等halo笔记本上市之后把现在的笔记本换掉的,本地部署大模型确实有意思,再过几年也许就可以本地部署671B的INT8或者FP8大模型了。除了大模型,RAM和CPU配置提高了,做其它事情也快。”
AI赛道,或许是国产厂商切入PC芯片领域的契机。当前许多厂商开始营销各类AI一体机产品。相信如果国产厂商能推出更大统一内存,比如256G版本的国产“Project DIGITS”,也许会更受欢迎。
AI PC的概念,是任人打扮的小姑娘。故事,其实各家有各家的讲法。OEM各大厂百花齐放,砸钱砸工程师做本地化AI应用,软件有些能本地也能云,云服务可以接入国产模型做商业,可能是一快很好的蛋糕。
低延迟+隐私保护,或许是拉动类似GPT一类大语言模型,SD绘图,声音克隆,AI补帧,抠图,重绘等本地化AI应用的一个点。
AI PC的足够强的边缘算力+大内存(显存)+优化到足够高效的软件,结合起来才能有望解决行业痛点,大批量落地AI终端。所以说,AI PC其实也不完全是噱头炒作,不管是更普惠的AI,更高能效的AI,还是更强大算力的AI,还是基于云和网络更简单好用的AI,都是有在进一步发展技术,摸索市场。