本文来自千家网(www.qianjia.com),作者 | Amihai Kidron。
必须在边缘设备上启用处理功能,并设计成具有成本效益,以实现更普遍的生成式人工智能。
如今,生成式人工智能还只是早期采用者使用的新奇事物,但明天,它将成为我们日常生活中不可分割的一部分。因此,它必须可以在各种消费设备上访问,独立于基于云的处理,并且可供所有人使用,而不仅仅是那些能够负担得起云人工智能订阅或高端计算机、智能手机甚至汽车的人。
换句话说,例如,如果汽车制造商打算将生成式人工智能纳入其车辆中(许多汽车制造商确实这样做了),那么即使汽车无法连接到互联网,车载处理器也必须能够处理它。作为一项伟大的民主化技术,生成式人工智能应该适用于各种车型,而不仅仅是豪华车。
始终可用的消费者生成式人工智能难题有两个主要的工程部分:在边缘启用生成式人工智能并以不昂贵的方式构建它。
让我们分解它们。
边缘生成式人工智能
自ChatGPT推出以来,软件开发人员一直在开发利用大型语言模型(LLM)的应用程序和服务,以便消费者可以创建人工智能生成的内容。例如,许多Microsoft Windows用户有一天登录后发现任务栏中有Copilot。但是,当他们将笔记本电脑切换到飞行模式或在Wi-Fi不稳定的咖啡店里做演示时,他们收到了一条消息:“您处于离线状态。”
当然,这是因为与Copilot交互所需的LLM和AI处理器集群位于数据中心,而不是用户的笔记本电脑上。展望未来,计算机和智能手机制造商正在寻求将生成式AI变成设备本身的功能,而不是仅存在于云端的功能。
除了确保消费者在设备离线时可以利用生成式AI之外,还有几个原因使生成式AI应该在边缘可用。首先是应用程序性能。当前生成式AI服务回溯到云端的范式必然会带来延迟。对于像AI驱动的语言翻译器或计算机视觉处理器这样的应用程序来说,AI处理最好在设备上进行,以确保实时性能。
第二是用户隐私。可以为用户总结视频通话、生成电子邮件回复、从照片中编辑掉不需要的对象或诊断潜在健康状况的AI应用程序最好在本地处理,这样用户的数据就不必移动到云端。
然后是基础设施需求问题。随着生成式人工智能用户数量的增长,云处理也随之增长。在边缘设备上处理生成式人工智能可以平衡不断增长的工作负载,使应用程序能够更稳定、更可持续地扩展,并减轻云数据中心昂贵的处理负担。
此外,通过在边缘平衡更多的生成性AI处理,我们减少了访问应用程序对基于云的订阅的需求,从而降低了消费者的成本,并实现了更普遍、更普遍可用的生成性AI服务。
边缘AI处理的需求
为了在边缘设备上实现生成性AI处理,开发人员需要创建可以在笔记本电脑、智能手机或其他边缘设备上运行的LLM,并且他们需要为该任务设计的边缘AI处理器。
第一个是通过更精简的数据模型来实现的。600亿个参数的基于云的模型无法在边缘设备上运行。业界开始看到更多针对特定生成性AI任务进行微调的40亿个参数模型:翻译服务、计算机视觉、汽车中的交互式用户手册等。特定的AI应用程序将拥有自己的、较小的LLM,其更新方式与当今应用程序的更新方式相同,因此它们保持精简和最新。
然而,除了开发边缘目标AI模型之外,消费者还需要配备专用生成AI处理器的设备,例如神经处理单元(NPU),旨在满足AI的独特需求。与通常为高端系统中的AI重新设计的GPU不同,NPU为边缘设备提供了更高效、更具成本效益的解决方案。为了充分释放生成AI的潜力并将其无缝集成到日常生活中,这些处理器必须在各种外形尺寸中以合适的价格提供合适的性能。这还需要一种新的节能架构,该架构足够强大,可以运行生成AI任务而不会过度消耗电池。
专为边缘生成AI而设计
专用边缘AI处理器已经上市。一些领先的新一代处理器制造商包括既可用作CPU又可用作NPU(神经处理单元)的高性能处理器。其中大多数价格昂贵,会占用设备的内存带宽,因此最适合用于高端。
专用的生成式AI加速器是昂贵的CPU和NPU的替代方案,这些加速器从头开始设计,以扩展性能和功耗以适应设备和应用。一个例子是Hailo的Hailo-10H生成式AI加速器,它每秒最多可执行40万亿次运算(TOPS),功耗通常不到3.5W。它将提供多种外形尺寸,并配备紧密集成的内存,以满足不同的性能水平和价格点。
Hailo使用可扩展的分布式数据流架构。作为真正的神经处理单元(NPU),它针对生成式AI处理进行了优化,使边缘设备能够高效、有效地运行LLM。它还可以在PC、智能手机、汽车、家庭安全系统等上运行,成本低于替代解决方案。
在不久的将来,生成式AI将成为尽可能多的设备上可用的基本功能,人们可以在需要时随时访问,而无需支付高级硬件或生成式AI订阅服务的额外费用。