本文来自微信公众号“半导体产业纵横”,作者/畅秋。
处理器,无论是CPU、GPU、FPGA,还是NPU,要想正常运行,都离不开RAM,特别是DRAM(动态随机存取存储器),它已经成为各种系统(PC,手机,数据中心等)中内存的代名词。
根据应用不同,系统对芯片面积和功耗有不同要求,因此,DRAM被分成标准DDR(双倍数据速率)、LPDDR、GDDR等,当然,主要就是这三类。其中,DDR是相对于SDR(单数据速率)而言的,将I/O时钟加倍了,主要为PC和数据中心的CPU服务,目前已经发展到DDR5;LPDDR是低功耗的DDR,主要用于手机等便携式设备;GDDR则是GPU专用DRAM。
在高性能计算(HPC)和AI发展如火如荼的当下,一个很大的瓶颈就是处理器与DRAM之间的通信速度,越来越跟不上应用需求的前进脚步。对此,人们想出了多种方法,以提升通信带宽,如不断提升DRAM本身的接口性能,以及存算一体等,但从实际应用情况来看,只提升接口性能是不够用的,而存算一体短期内还无法实现。在这种情况下,推出更好的DRAM与CPU、GPU等处理器的结合形式,也就是不断让封装技术进步,成为了业界提升通信带宽的普遍共识。
01
DRAM的常用封装技术
DRAM封装技术几经变迁,从双列直插封装DIP、J型引脚小外形封装SOJ、薄型小尺寸封装TSOP、底部引线塑料封装BLP、焊球阵列封装BGA(F-BGA、W-BGA),发展到芯片级封装CSP、堆叠封装等高性能封装方式。在成本允许的条件下,可尽量采用先进的封装技术,以提升DRAM性能。
目前,堆叠封装技术,特别是系统级封装(SiP),可以在有限的空间内成倍提高存储器容量,或实现电子设计功能,解决空间、互连受限等问题。此外,由于封装设计的变化,引线键合封装因具有灵活性、可靠性和低成本的优点而备受青睐。倒装(Flip Chip,FC)芯片于2016年开始进军DRAM封装,由于高带宽需求的推动,倒装芯片在PC、服务器中的采用率不断增加。目前,系统对高带宽、高性能、低延迟的综合要求很高,硅通孔(TSV)很适合高带宽内存封装需求。
在便携式电子设备应用中(如手机),DRAM的封装尺寸会直接影响到产品的体积大小,所以,封装技术要向轻、薄、短、小方向发展。
不同应用的产品尺寸、性能、形态等存在差异,采用的封装形式也不同。其中,移动终端DRAM(LPDDR)多以WB-FBGA为主,PC和服务器用的标准型DDR则以FBGA、FC为主。
以DDR为例,FBGA线长较短,信号传输好且成本较低,曾经被三星、SK海力士和美光等主流厂商广泛采用,随着内存条产品发展到DDR4,三星、SK海力士的很多产品开始转向FC封装,其传输路径更短,电性能表现更好。尽管FC的成本比FBGA高,但得益于规模效应,两者成本基本持平。现在的高端产品,如DDR5,性能要求很高,目前多采用TSV堆叠封装。TSV采用纵向穿越结构,通过导线将不同层的芯片相互连接起来,这种连接方式不仅提供了更高的信号带宽,还减少了电阻和电感,提高了芯片的整体性能。通过TSV把多芯片的I/O连接,同时实现多芯片堆叠来扩容并实现更小的信号损失。
LPDDR与处理器紧密集成在一起,或者焊接在主板上,靠近CPU,或者直接在处理器(在这种情况下,通常是SoC)的顶部以package-on-package封装的形式出现,这种形式越来越常见。紧密的集成可减少将内存连接到处理器的长导线中的电阻,从而降低功耗。
总体来看,引线键合是主要的封装方法,广泛应用于移动存储器,其次是倒装芯片封装,其在DRAM市场不断拓展。
02
HBM带动封装技术再创新
目前,AI服务器对HBM(高带宽内存)的需求量越来越大,因为HBM大大缩短了走线距离,从而大幅提升了AI处理器运算速度。
HBM经历了几代产品,包括HBM、HBM2、HBM2e和HMB3,最新的HBM3e刚出样品。HBM是一种应用于CPU和GPU的新型内存,它将多个DDR芯片堆叠在一起后和GPU封装在一起,主要通过TSV技术进行芯片堆叠,通过贯通所有芯片层的柱状通道传输信号、指令和电流,以增加吞吐量并克服单一封装内带宽的限制,实现了大容量、高带宽的DDR组合阵列。HBM3带宽可以达到819GB/s。
目前,全球三大存储芯片厂商都在开发HBM技术和产品,其中,三星和SK海力士已经量产了HBM3,主要用于英伟达的H100、H800和AMD的MI300系列GPU,三星预计于2024年第一季度送样HBM3e,下半年量产,SK海力士则于近期给英伟达送去了HBM3e样品,其最新的GPU芯片H200已经标配了HBM3e。美光(Micron)则相对落后,该公司选择跳过HBM3,直接开发HBM3e。
传统封装技术已经难以满足HBM的需求,而台积电的CoWoS(chip-on-wafer-on-substrate)封装则是较为理想的方案。
CoWoS是一种集成逻辑和HBM芯片的2.5D封装技术,在这种封装中,处理器和HBM在硅中介层上并排键合,以形成具有细间距和器件之间高密度互连布线的晶圆上芯片(CoW)。每个HBM都由带有微凸块的DRAM和一个带有TSV的逻辑基座组成,然后完成在基板上具有较大凸块的TSV中介层的组装。
多年来,CoWoS一直在追求不断增加硅中介层尺寸,以支持封装中的处理器和HBM堆栈。目前,CoW是倒装芯片键合最常用的组装方法,它采用了一种称为混合键合方法的无凹凸技术。
CoWoS产能不足是近期AI芯片出货量的主要瓶颈,以台积电为代表的厂商正在扩充相关产能,以满足市场需求。
03
先进封装大战
台积电在2011年就开始布局CoWoS了,并陆续获得多个客户订单,但由于报价昂贵,加上相应的需求有限,因此,前些年的产能没有明显增加,但是,进入2023年以来,特别是AIGC需求爆发,台积电开始大幅扩建CoWoS产线。
目前,除了台积电,英特尔、三星等芯片制造大厂也在加大先进封装投入力度。
英特尔方面,预计该公司最新先进封装服务将在2026年投入量产。不同于其它竞争对手主要采用硅制程的中间层技术,英特尔选择用玻璃基板,其成本会相对较高,业界采用该方案的厂商较少。
对于赶超台积电HBM先进封装技术最为积极的是三星。
2021年,三星推出了2.5D封装技术H-Cube。今年9月,据Etnews报道,为了追上台积电AI芯片的先进封装,三星将推出名为FO-PLP的2.5D封装技术。据悉,FO-PLP可将处理器和HBM整合到硅中介层。
据悉,FO-PLP的基板是方形,而台积电的CoWoS是圆形基板,FO-PLP不会有边缘基板损耗问题,但由于要将芯片由晶圆移植到方形基板,其作业较为复杂。
近期,三星还推出了最新的封装技术SAINT,包括SAINT S(垂直堆叠内存和CPU),SAINT D(用于CPU、GPU和内存的垂直封装),SAINT L(用于堆叠应用处理器)。
消息人士称,SAINT S已经通过了验证测试,在与客户进行进一步测试后,三星将于2024年推出相应的商业服务。
最近,三星HBM3及其封装服务通过了AMD的质量测试,后者计划将这些芯片和服务用于其最新的GPU芯片Instinct MI300X。
此前,AMD曾考虑使用台积电的封装服务,但由于后者的CoWoS产能严重供不应求,AMD不得不改变计划。
据韩国消息人士透露,三星还在与英伟达进行HBM3芯片技术验证,并提供封装服务。一旦工作完成,预计三星将负责英伟达H100与HBM3的封装,据悉,这两家公司签署了一项服务和供应协议。
今年6月,三星成立了多芯片集成联盟,目的是与存储芯片公司、外包半导体封装和测试公司(OSAT),以及芯片设计公司共同推进封装技术。
在先进封装技术研发方面,没有芯片工厂的AMD也是不遗余力,特别是在HBM和GPU、CPU封装方面。
在ISSCC 2023国际固态电路大会上,AMD提出了多种新的封装设想,其中之一是在服务器CPU模块内部,直接堆叠内存,而且是多层堆叠。一种方式是将CPU模块和内存模块并排封装在硅中介层上,另一种方式是在计算模块上方直接堆叠内存,有点像手机SoC。
AMD表示,这种设计可以让计算核心以更短的距离、更高的带宽、更低的延迟访问内存,还能降低功耗。
如果堆叠内存容量足够大,主板上的DIMM插槽都可以省了。
AMD甚至考虑在Instinct系列GPU已经整合封装HBM的基础上,继续堆叠DRAM,但只有一层,容量不会太大。这样做的最大好处是一些关键算法可以直接在此DRAM内执行,不必在CPU和独立内存之间往复通信,从而提升性能、降低功耗。
AMD还设想在2D/2.5D/3D封装内部,集成更多模块,包括内存、统一封装光网络通道物理层、特定域加速器等,并引入高速标准化的芯片间接口通道(UCIe)。
04
结语
3D封装是未来发展方向,这种多层结构有很多优点:一、它通过增加芯片层次和连接方式,实现了更高的芯片集成度和功能密度;二、多层堆叠结构减小了整个芯片的体积,使得电子设备变得更加轻薄便携;三、多层堆叠提供了更高的性能和效率,可进一步优化电子设备的处理速度和能耗。
HBM所涉及的封装已经是当下最先进的内存封装技术了,不过,技术进步的脚步一直没有停歇,在扩充现有先进技术产线的基础上,各大厂商还在研发更具前瞻性的技术。
据悉,三星电子先进封装(AVP)事业组正在研发新一代内存技术“Cache DRAM”,目标是在2025年开始量产。与HBM相比,Cache DRAM功耗效率可改善60%,延迟将减少50%。
封装技术方面,Cache DRAM与HBM也有很大区别,HBM是水平连接至GPU,Cache DRAM则是与GPU垂直连接。
当然,不止三星,英特尔、台积电、日月光等大厂都在开发新的内存封装技术,但具体情况还不得而知。
在研发先进封装技术的道路上,需要解决的难题也很多,例如,随着堆叠层数的增加,热量的管理问题越来越凸出,因为在紧密堆叠的芯片中,热量散发变得更加困难。对此,科学家们正在不断寻找解决方案,以保持芯片高性能工作状态的稳定性和可靠性。