本文来自微信公众号“半导体产业纵横(ID:ICVIEWS)”,编译自scitechdaily。
一种基于光的芯片连接系统可以帮助克服“内存墙”。
使用光代替金属线的突破性芯片连接系统可以消除主要的计算瓶颈,从而增强人工智能的发展。
该项目由美国国家科学基金会200万美元资助,并得到行业领导者的支持,旨在使AI模型运行速度更快、效率更高。通过动态重新配置光路,这项创新可以彻底改变高性能计算并重新定义数据传输。
利用基于光的芯片连接打破“记忆墙”
一种新的芯片连接系统可以帮助克服“内存墙”,这是减慢计算速度和限制人工智能模型增长的主要瓶颈。这项技术不依赖传统的电线,而是通过可重构的光路传输数据,从而实现更快、更高效的通信。
该项目由密歇根大学牵头,由美国国家科学基金会未来半导体项目提供200万美元资助。该项目汇集了华盛顿大学、宾夕法尼亚大学和劳伦斯伯克利国家实验室的研究人员,并得到了谷歌、惠普企业、微软和Nvidia等行业领导者的指导。
数据传输瓶颈阻碍人工智能发展
尽管计算能力已大幅提升(如今的处理速度比20年前快了60,000倍),但内存和处理器之间的数据传输却落后,仅提高了30倍。这种不断扩大的差距造成了瓶颈,限制了AI模型的大小,而AI模型的规模一直在以惊人的速度扩大——自1998年以来,每两年就扩大400倍。更快的数据传输对于释放AI的全部潜力至关重要。
“我们提出的技术可以使高性能计算跟上快速增长的人工智能模型中大量数据的步伐,”密歇根大学电气与计算机工程教授、该项目首席研究员Di Liang表示。“通过芯片之间的光学连接,我们认为我们可以实现每秒数十兆兆位的传输,这比最先进的电连接快100倍以上。”
硬线金属连接的局限性
如今,数据通过焊接在单个物理封装(称为中介层,类似于主板)上的金属连接在多个内存和处理器芯片之间移动。数据可以在单个中介层内传输,也可以在互连服务器(称为计算节点)上的中介层之间传输。
金属连接硬连线到中介层,这限制了数据传输带宽和信号完整性,因为更快的电信号会以热量的形式损失能量,并可能对相邻连接产生电磁干扰。因此,无法将所有不同的处理器和内存芯片硬连线。如今,单个超级计算机芯片可以包含超过900,000个核心或单个处理单元,而且随着AI模型规模的扩大,这个数字还会继续增长。
为什么光学中介层代表着未来
“所有这些处理器都需要与大量内存进行通信,”华盛顿大学电气与计算机工程教授、该项目联合首席研究员莫李(Mo Li)表示。“控制整个封装内的通信非常重要。在我看来,光学连接将是未来唯一可行的解决方案。”
光比电子传播得更远,能够传输大量数据,同时能量损失更少,研究人员将利用这些特性设计新的中介层。光脉冲将通过中介层中称为光波导的折射通道在芯片之间传播。每个芯片上的接收器将数据重新转换为电信号,供计算机解读。
人工智能工作负载的动态流量控制
由于中介层中存在一种特殊的相变材料,波导网络还可以在制造过程中以及在计算机内部进行重新配置。当受到激光照射或暴露于电压时,材料的折射率会发生变化,这意味着光线在穿过波导时会向不同的方向弯曲。
宾夕法尼亚大学材料科学和电气与系统工程教授、联合首席研究员梁锋表示:“如果一家公司出售基于这项技术的芯片,他们将能够在不改变其他组件布局的情况下重写不同批次芯片和服务器上的连接。”
研究人员将设计流量控制软件,监控中介层哪些部分在任何给定时间需要通信,并进行必要的电压切换以动态创建理想的连接。
“改变连接使我们能够根据我们想要运行的AI模型,或者我们是否想要训练或运行模型来重新配置网络,”计算机科学与工程副教授兼项目联合研究员Reetuparna Das说。
行业合作和学生实践学习
除了推进技术进步之外,该项目还将使密歇根大学的学生与行业合作伙伴建立联系,并提供宝贵的现实世界经验。
这些联系让学生能够体会到设计快速发展的技术时所面临的现实挑战,教科书没有充分解决这些现代问题,因为发展速度使教科书无法跟上。获得相关技能的最佳方式是与行业合作解决他们关心的问题。