智算中心加速布局,上游计算、存储、互联都涉及哪些芯片技术

李弯弯
智算中心是承载人工智能计算需求的基础设施,专门用于处理AI算法和模型所需的大量计算任务。与传统的数据中心和超算中心不同,智算中心更侧重于AI算力的提供,以满足日益增长的人工智能应用需求。

本文来自微信公众号“电子发烧友网”,作者/李弯弯。

智算中心是承载人工智能计算需求的基础设施,专门用于处理AI算法和模型所需的大量计算任务。与传统的数据中心和超算中心不同,智算中心更侧重于AI算力的提供,以满足日益增长的人工智能应用需求。

近期,中国各地纷纷加快数字基建项目的建设步伐,智算中心成为布局重点。从北京到四川,从宁夏到河南,多地智算中心项目相继开工或投入使用。国家统计局最新数据显示,我国算力基础设施建设已达到世界领先水平,智能算力规模占比提升至逾30%。

智算中心技术架构

智算中心的技术架构通常包含多个层次,从底层的硬件基础设施到上层的软件平台和算法服务,形成了一个完整的计算生态系统。

硬件基础设施层主要包括计算设备、存储系统和网络设施。计算设备包括高性能服务器、计算节点、GPU加速卡等,提供强大的计算能力和并行处理能力。这些设备是智算中心的核心组成部分,能够支持大规模数据处理和复杂的计算任务。

存储系统包括高速硬盘阵列、分布式文件系统、对象存储系统等,用于存储和管理海量数据。这些系统提供了高可靠性、高吞吐量和快速访问的存储解决方案,确保数据的安全性和可用性。

网络基础设施包括高速以太网、光纤网络、交换机、路由器等,支持数据传输和通信。这些设备提供了高带宽和低延迟的网络连接,以满足大规模数据传输和分布式计算的需求。

软件平台层包括算法和人工智能技术、大数据处理平台、AI使能软件和开发框架、云平台管理调度系统。算法和人工智能技术:包括机器学习算法、神经网络、图像处理和自然语言处理等,用于数据处理、机器学习、深度学习和模型训练等任务。这些算法和技术是智算中心实现智能计算的关键。

大数据处理平台:如Hadoop、Spark等,提供分布式和并行计算的能力,能够高效地处理大规模数据集。这些平台为智算中心提供了强大的数据处理和分析能力。

AI使能软件和开发框架:如CANN(华为昇腾AI计算架构)、MindSpore(华为全场景AI框架)等,为AI开发者提供便捷的开发环境和工具链,降低AI应用的开发门槛和成本。

云平台管理调度系统:如ModelArts(华为云AI开发平台)等,提供算力资源的统一管理和调度服务,实现算力资源的灵活配置和高效利用。

智算中心涉及的芯片及企业

从计算层面来看,智算中心以人工智能计算任务为主,是AI算力的核心基础设施。它采用专门的AI算力硬件,如GPU、NPU、TPU等,这些芯片擅长并行计算,能够高效处理AI算法中的大量简单矩阵运算任务。

智算服务器作为智算中心的主要算力硬件,通常采用“CPU+GPU”或“CPU+NPU”的异构计算架构,以充分发挥不同算力芯片在性能、成本和能耗上的优势。

这种强大的算力驱动AI模型对数据进行深度加工,源源不断产生各种智慧计算服务,面向全行业领域提供基于深度学习技术的人工智能算法能力、算法框架和相关接口。

华为、天数智芯、摩尔线程、中科曙光、燧原科技、英伟达、英特尔、AMD等都推出有相关的芯片。如,华为推出了昇腾系列AI芯片昇腾910和昇腾310等,这些芯片专为AI训练和推理设计,具有高性能和低功耗的特点。昇腾系列已广泛应用于数据中心、云服务和边缘计算等领域,为智算中心提供强大的算力支持。

英伟达推出了多款针对AI训练和推理的GPU产品,如A100、H100等。英特尔也推出了多款AI芯片产品,如Habana Labs的Gaudi系列芯片,旨在与英伟达竞争。AMD在AI芯片领域也有所布局,推出了MI系列GPU和APU产品。

从存储方面来看,智算中心需要存储海量的数据,包括结构化数据、非结构化数据等。这些数据是AI算法训练和推理的基础。因此,智算中心在存储方面需要具备高容量、高可靠性、高可用性等特点。

存储设备通常采用高性能的硬盘或固态硬盘,并配备冗余的存储架构,以确保数据的安全性和可访问性。一般而言,智算中心的主要算力硬件智算服务器,其DRAM容量和NAND容量通常是传统服务器的数倍。三星、美光、SK海力士等都有相关芯片都广泛应用于数据中心、云计算等领域,为智算中心提供高性能的存储解决方案。

网络互联方面,智算中心的设备互联首先依赖于硬件基础设施,包括高性能的交换机、路由器、无线产品等网络设备,以及用于连接服务器、存储设备等的光纤、网线等物理介质。为了实现设备间的高效互联,智算中心通常采用高速互联技术,如InfiniBand、RoCE(RDMA over Converged Ethernet)等。这些技术能够提供低延迟、高带宽的数据传输能力,满足AI算法对算力的需求。

在智算中心中,GPU是核心的计算单元。为了实现GPU之间的高效互联,通常采用NVLink等专用通信协议,以实现高速的P2P(点对点)互联带宽。NVLink是NVIDIA开发并推出的一种私有通信协议,它采用点对点结构、串列传输,可以达到数百GB/s的P2P互联带宽。

写在最后

智算中心作为智慧时代的基础设施,将在未来社会经济发展中发挥越来越重要的作用。随着技术的不断进步和应用场景的不断拓展,智算中心将迎来更加广阔的发展前景。而上游产业链为智算中心提供了必要的硬件和软件支持。这些产业链参与者的共同努力和协作,推动了智算中心计算能力的不断提升和发展。

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论