本文来自微信公众号“科技行者”,【作者】周雅。
DeepSeek的V3模型的最后一轮训练,仅用557.6万美元的GPU使用成本,就训练出了全球前沿模型,并在后续发布与OpenAI o1推理模型能力不相上下的DeepSeek R1,这股神秘东方力量就像蝴蝶扇动了翅膀,在全球引发连锁反应至今已经整整1个月。
此前,AI产业的发展逻辑似乎还很简单:模型参数越大越好、算力投入越多越好。但DeepSeek R1的横空出世,改写了这一认知,约束条件反而可以推动创新,没有大算力,还可以优化算法。所以现在科技圈普遍出现了一种声音:一个开源、高性能、低部署推理成本的大模型也能带来整个AI产业生态的繁荣,是大家抓紧上车的门票。
那么,究竟接下来产业链中还有谁能从DeepSeek的冲击波中受益?
在2025财年第一季度财报电话会议中,高通公司总裁兼CEO安蒙提到,“DeepSeek R1及其他类似模型表明,AI模型正在向更快、更小、更强大、更高效的方向发展,并且可以直接在终端侧运行。DeepSeek R1的蒸馏模型在发布仅几天内,就能在搭载骁龙平台的智能手机和PC上运行。”
紧接着,高通发布了最新白皮书《AI变革正在推动终端侧推理创新》(下称《白皮书》),首次阐述了终端AI推理迎来突破的深层逻辑。
01 范式之变:为何现在是终端AI的拐点?
大模型的规模竞赛推动了底层技术创新,同时也让业界思考AI部署的多元路径。
今年年初的时候,高通中国区研发负责人徐晧接受科技行者专访时提到,AI发展现在遵循两个主要轨迹:云端AI、终端侧AI。
首先,大部分人看到的、听到的AI都是云端训练的AI模型,例如Meta的LLaMA、OpenAI的ChatGPT、Anthropic的Claude、谷歌的Gemini等,它们都是用非常多的GPU堆起来,拥有很大的算力,能够处理海量数据,从而训练出的大模型。这些大模型部署在云端,也只能在云端运行。(现在1000亿参数甚至更大的模型只能在云端运行。)
其次,另一个主要趋势是终端侧AI。任何技术要落地到每个人手中,都需要下沉到智能终端,比如手机、PC、汽车、工业物联网等,这些万物智能的设备占据更大规模,且可以实现云端AI所无法实现的隐私、效率、个性化用户体验。
安蒙在财报电话会议中还明确指出,“随着我们进入AI推理时代,模型训练仍将在「云端」进行,但推理将更多在「终端侧」运行,让AI变得更便捷、可定制且高效,那将促进更多专用模型和应用的开发和采用,并因此推动各类终端对高通平台的需求。”
高通还在《白皮书》中,详细介绍了推动终端侧AI变革的四大关键趋势:
第一,当前先进的AI小模型已具有卓越性能。模型蒸馏、AI网络架构优化等新技术,能够在不影响质量的情况下简化开发流程,让新模型的表现超越一些仅在云端运行的大模型。
第二,模型参数规模正在快速缩小。得益于先进的量化和剪枝技术,开发者现在能够在不影响模型准确性的前提下,显著缩减模型参数规模。
(编者注:也就是说,当一个小模型能够做到大模型前两年能做的事情,那么把这个小模型放到终端上就足够了,比如汽车上可以放100个亿-1000亿参数的模型,现在大多数手机已经可以支持30亿参数的模型,在这个维度上,小模型能做越来越多的事情。该趋势解决了终端部署的计算负担问题,为大规模商用部署扫清了技术障碍。)
第三,开发者能够在边缘侧打造更丰富的应用。高质量AI模型快速激增,意味着文本摘要、编程助手和实时翻译等特性在智能手机等终端上的普及,让AI能够支持跨边缘侧规模化部署的商用应用。
第四,AI正在成为新的UI。个性化多模态的AI智能体(Agent)将简化交互,高效地跨越各种应用完成任务。
此处引用徐晧当时在对谈中举例而言,比如我们现在要出去旅行,就需要在手机上操作:定机酒-看日程安排-看当地天气-看当地攻略等,这就要调用不同的APP来完成这些事情。但是如果有了AI智能体,那么就能一步到位,只需要告诉AI智能体:“看看我下周哪天有空,我想去某地旅游,帮我订某星际酒店,最好是能够在海边,顺便看看当地天气和功率”。我们和终端的交互只需要通过自然语言和AI智能体,AI智能体会去调用后台所有App来把事情搞定。那么这个UI就完全不是以前的UI了。
02 市场格局:谁将受益于这一变革?
一、毫无疑问,芯片厂商将成为最直接受益者。终端侧AI对处理器的算力和能效都提出了更多要求,这将催生新一轮硬件升级周期。
二、模型开发商将迎来新机遇。DeepSeek的成功表明,通过技术创新,小型团队同样可以在AI领域实现突破,随着终端部署门槛降低,将会涌现更多面向特定场景的专业化模型。
三、应用开发者将获得更大施展空间。高质量、小模型的普及,使得文本处理、代码辅助、实时翻译等AI功能可以轻松部署到终端设备,这将激发新一轮应用创新。
以高通为例。无论是AI训练正在向大规模推理转型,还是AI计算处理从云端向边缘侧扩展方面,高通都具有战略优势,作为终端侧AI的引领者,高通的解决方案涵盖了数十亿台智能手机、汽车、XR头显和眼镜、PC以及工业物联网终端等。
徐晧告诉我,“高通正在用最节能的方式、最小的芯片面积来做最有效的人工智能应用。”其中有几种有效的方案,可以将大模型缩小或提高不同模型的适应性。
- 首先是对模型本身的简化。
第一种叫“剪枝”(Pruning),就像修剪花草一样。把AI模型中不太重要的“枝节”剪掉,保留最核心的部分,这样模型体积变小了,但依然能保持原有的聪明才智。第二种方法叫“学生-教师模型”(Student-Teacher Model),像是“师徒传艺”,把一个“经验丰富”的大模型当作老师,让它去教导一个“年轻”的小模型,通过不断学习和验证,小模型最终也能掌握老师的本领,但所需的计算资源却少得多。第三种方法叫“LoRA”(Low-Rank Adaptation),可以理解为“化整为零”,把一个庞大的AI任务,分解成几个小任务,用更小的模型来分别处理,这就像是把一个大工程分派给几个小团队,每个团队专注于自己的部分,最终一起完成大任务。
这些技术创新让AI模型变得更加节能和轻量级,不仅能在手机等终端设备上流畅运行,还保持了优秀的性能,为AI的普及应用打开了新的可能。
- 其次是用蒸馏(Distillation)的方法,用大模型训练小模型。
蒸馏是开发高效小模型的一项关键技术,它能够让大模型“教学”小模型,保持准确性的同时迁移知识。蒸馏技术的使用,促使小型基础模型激增,包括众多面向特定任务调优的模型。
高通在《白皮书》中展示了蒸馏的强大能力。下图比较了Llama 3.3 700亿参数模型和同类DeepSeek R1蒸馏模型的LiveBench平均测试结果,显示出在相同参数规模下,蒸馏能够在推理、编程和数学任务中显著提高性能。
图:Meta Llama 700亿参数模型和DeepSeek对应蒸馏模型的LiveBench AI基准测试平均结果对比。来源:LiveBench.ai,2025年2月。
此外,得益于蒸馏和上述其他技术,小模型正在接近前沿大模型的质量。下图显示了DeepSeek R1蒸馏版本与其他领先模型的基准测试结果对比。基于通义千问模型和Llama模型的DeepSeek蒸馏版本展现了诸多明显优势,尤其是在GPQA基准测试中,与GPT-4o、Claude 3.5 Sonnet和GPT-o1 mini等先进模型相比,取得了相似或更高的分数。(GPQA是一个关键评估指标,因其涉及解决复杂问题的深层次、多步骤的推理,这对许多模型颇具挑战性。)
图:数学和编程基准测试。来源:DeepSeek,2025年1月。
《白皮书》中特别指出,将大型基础模型缩减为更小、更高效的版本,不仅能实现更快的推理速度、更少的内存占用和更低的功耗,同时可以保持较高的性能水平,从而使此类模型适合在智能手机、PC和汽车等终端上部署。
03 挑战犹存:变革之路并非坦途
尽管前景可期,终端侧AI推理仍面临诸多挑战:一是性能与效率的平衡问题,如何在有限算力下实现更好的推理效果;二是生态建设问题,需要更完善的开发工具和框架支持;三是标准化问题,不同平台间的模型部署仍缺乏统一标准。
仍以高通为例。首先在硬件层面,高通长期致力于开发定制CPU、NPU、GPU和低功耗子系统,同时拥有封装技术和热设计的技术专长,构成了其行业领先系统级芯片(SoC)产品的基础。
这些SoC能够直接在终端侧提供高性能、高能效的AI推理,通过紧密集成这些核心组件,高通的平台可在保持电池续航和整体能效表现的同时,处理复杂AI任务,这对边缘侧用例至关重要。
其次在软件层面,高通还构建了强大的AI软件栈,旨在赋能软件开发者。高通AI软件栈包括库(libraries)、SDK和优化工具,可简化模型部署并提升性能。开发者可以利用这些资源,面向高通平台高效进行模型适配,缩短AI赋能应用的上市时间。
最后,作为高通面向各行各业规模化扩展AI战略的核心,高通与全球AI模型厂商积极合作,并提供高通AI Hub等服务。
高通《白皮书》中介绍,在高通AI Hub上,仅需三步,开发者即可:1)选择模型,或引入自主模型又或基于他们的数据创建模型;2)选择任意框架和runtime,在基于云的物理设备场(cloud-based physical device farm)上撰写和测试AI应用;3)使用工具商业化部署其应用。高通AI Hub支持主流大语言模型和多模态大模型(LLM、LMM)系列,让开发者可在搭载高通平台的终端上部署、优化和管理推理任务。借助预优化模型库和支持定制模型优化与集成等特性,高通赋能加速开发周期,同时增强了与广泛AI生态的兼容性。
从技术演进规律看,AI计算正在经历与互联网相似的分布式变革。就像是云计算无法完全替代终端计算一样,终端侧AI也将与云端AI形成互补。当前我们正处于这一变革的起点,未来终端AI的应用场景可能远超预期。
DeepSeek事件也给业界提了个醒,AI产业正在进入一个新阶段。在这个阶段,技术创新的重点将从突破模型规模上限,转向提升计算效率和部署灵活性。
或许AI的下一波创新,不仅是比拼谁的模型更大,还要看谁能让AI更轻便、更普及、更贴近生活。