本文来自微信公众号“EEPW”,作者/李健。
2022年ChatGPT的出现,掀起了全球再一次的AI应用热潮,凭借强大的功能和杰出的用户体验,生成式AI(AIGC)成为2022年开始最引人关注的技术新浪潮。生成式AI使用深度学习模型,利用现有文本、图像、音频等内容生成全新内容、解决方案或新概念的人工智能技术,可以通过学习输入数据的统计规律,来创造新的数据,因此它可以形成创造性的表达,极大地拓展了人工智能在各个领域的应用前景。并且可以通过AI大模型的经验分析,以极有想象力的方式生成众多满足用户创意需求的原创内容,并通过包括文本、图像、音频、视频甚至各类代码等方式输出。
生成式AI的运用有可能在不久的将来,像工业时代的铁路、电力、印刷等通用技术,影响各个产业。Bloomberg Intelligence报告指出,生成式AI市场可望迎来爆发性成长,在未来10年内从400亿美元的市场规模成长至1.3万亿美元。在训练AI系统所需基础设施的需求推动下,有望以42%的复合年均成长率逐步扩大规模,并在中长期阶段转向对大型语言模型、数字广告、专业软件和服务设施的推理需求。麦肯锡(McKinsey)预测,生成式AI能够在“经过分析的63种应用中增加2.6万亿到4.4万亿美元的年收入,与之相比,英国2021年的GDP总额仅为3.1万亿美元。如果我们将生成式AI嵌入到当前正在运行的其他任务软件中,这一估值预计将会翻倍。”
在这庞大的生成式AI财富圈中,硬件是其中不可或缺的一环,支持AI技术的发展涉及算力、存力、网力三大核心要求的各类硬件。在2022年下半年开始,生成式AI浪潮引爆了企业对芯片元器件的需求,其中,庞大的模型训练和任务部署对存储芯片的容量和性能的需求急剧增加,存储芯片正面临着内存墙限制的挑战。美光致力于为世界最先进的计算系统提供业界性能最佳的解决方案。美光科技领先的工艺提供了更快、更可靠和更大容量的存储产品,使人工智能、机器学习和生成人工智能成为可能。
在生成式AI技术出现之前,很多人在优化AI应用体验时就感受到了存力对AI应用的制约。AI模型的训练机制需要尽可能多的数据,越多的数据投喂结果越精准的工作原理,决定了大模型训练存在深度学习网络层数多、连接多、参数和数据集种类复杂、数据量大的特征,随着模型参数和数据量的快速增长,对于存储的大容量和扩展需求也迫在眉睫。
综合生成式AI在存储方面所面临的挑战,大致可以分为几个方面。
首当其冲的是GPU面临的存储容量问题,因为计算单元的存储能力有限,其计算效率同时受制于计算能力和与存储单元的通信能力。比如用于生成式AI模型训练的单卡无法完整存储一个大模型的参数GPT-3的1750亿个参数。参数本身就需要700GB的显存空间(每个参数按照4个字节计算)。
而以NVIDIA A100 GPU为例只有80GB显存,单卡增加显存似乎又涉及到成本和尺寸等问题,虽然该问题可以通过分布式训练和流水线并行的方式去解决,但分布式训练之后又会遇到通信墙的问题。再比如一台AI服务器需要的存储数量是普通服务器的3~6倍,而生成式AI对服务器的存储容量要求更大,无论是大规模模型的构建,还是海量训练数据的读取,以及最基本的天量级训练素材的储备和搜集,都需要庞大的服务器存储容量以及尽可能高速且低功耗的读取过程,因为以更快的速度处理数据需要大量的功耗,这将不可避免地导致大量碳排放。
更多的存储方面的问题还集中在AI集群每天都会产生大量新的数据集,历史数据的完整归档;小文件和非结构化数据过多,需要一个针对小文件存储进行优化的分布式存储系统。
云训练数据I/O效率低,对象存储较差的读写性能可能会导致训练过程中出现严重的瓶颈;以及持续的低延迟与高带宽和EB级大容量存储需求。
基于上述要求,HBM(High Bandwidth Memory,高带宽内存)作为一款新型的CPU/GPU内存芯片比较好的满足了生成式AI的存储需求,HBM其实就是将很多个DDR芯片堆叠在一起后和GPU封装在一起,实现大容量,高位宽的DDR组合阵列。高速、高带宽HBM堆栈没有以外部互连线的方式与信号处理器芯片连接,而是通过中间介质层紧凑而快速地连接,同时HBM内部的不同DRAM采用TSV实现信号纵向连接,从而可扩展更大的容量,并提供更低的功耗以及更小的体积。
目前第四代产品HBM3,速率则提高到了6.4Gbps,最大容量则增加到了24GB。HBM3所提供的内存带宽对实现下一代高性能计算、人工智能和百万兆级系统至关重要。基于过去两年存储行业低迷的行情,生成式AI的横空出世直接引爆了HBM3的市场需求,进而带动2023年三季度开始存储器全行业的复苏。生成式AI需要同时访问和获取海量数据,并从大容量内存中汲取数据以做出适当响应。这需要美光第二代HBM3(HBM3E)、高密度DDR5 DRAM和TB级SSD存储等技术,以满足在云端进行生成式AI训练和推理所需的速度和容量。美光的HBM3E内存采用了eight-tier布局,每个堆栈的容量达到了24 GB,可以实现每秒1.2 TB的传输速度。与此同时,它采用了先进的1β技术,这意味着制造工艺更加先进,有望提供更高的性能和效率,并降低制造成本。
生成式AI技术的火爆也开始逐渐蔓延到智能手机产业,随着高通和联发科技纷纷发布最新主打面向生成式AI的新旗舰SoC,智能手机产业将在2023年底正是迈向生成式AI时代,并在未来一两年内成为旗舰手机的标配。生成式AI的加入,让智能手机的存储需求大幅提升,这就提供给美光LPDDR5X更多的实战空间。对手机等终端设备而言,提供平衡的功耗和性能是助力AI驱动用户体验的关键,美光最新推出拥有9600Mbps的LPDDR5X内存让手机拥有更快的处理速度,能满足手持高性能生成式AI设备所需的速度和带宽。值得一提的是,美光的新一代LPDDR5X采用了最新的1β工艺,能够实现单颗16GB的封装容量,同时整体能耗将会降低30%,美光也将PC内存上常用的动态电压和频率调节带到了移动端。
其实,美光不仅提供关键的生成式AI内存和存储解决方案,还将AI应用于公司内部的硅制造流程。硅制造流程非常复杂,需要耗时数月,涉及约1,500道工序。美光将前沿AI技术应用于制造流程的全部工序,显著提高了准确性和生产效率。这样做不仅能提高产量、良率与质量、提供更安全的工作环境、改善效率,还能助力公司推进可持续发展。
无论是制造业、汽车、科学还是其他应用领域,生成式AI及其衍生技术都将以超乎人类想象的方式塑造未来,而美光在驱动您的穿戴、手持和云端设备数据中扮演着核心角色。