本文来自中国电子报、电子信息产业网,作者/宋婧。
8月30日,阿里云宣布正式启动张北超级智算中心,总建设规模为12 EFLOPS(每秒1200亿亿次浮点运算)AI算力,将超过谷歌(9 EFLOPS)和特斯拉(1.8 EFLOPS)的智算中心,成为全球最大智算中心。同期,阿里云还将同步启动乌兰察布超级智算中心,建设规模为3 EFLOPS(每秒300亿亿次浮点运算)AI算力,位于“东数西算”内蒙古枢纽节点。
据介绍,两座超级智算中心皆是以“飞天智算平台”为技术底座,在规模和效率上实现双向突破,将为AI大模型训练、自动驾驶、空间地理等人工智能探索应用提供强大的智能算力服务。
图为阿里云张北超级智算中心
如今,算力已成为至关重要的基础设施,同时也是数字经济发展的关键生产要素。“通过内外部实践,阿里云认知到两个比较明显的趋势:第一,中国已有58%的企业在使用AI人工智能,远超全球平均水平(35%),与此同时,数字化转型加速和智能应用普及加速了数据量的产生,预计到2025年中国的数据量将达到48.6ZB;第二,算力结构在发生变化,十三五期间,我国算力总规模增长近5倍,通用算力增长接近3倍左右,而智能算力的增长近百倍的,在整个融合算力中的占比达到了40%,未来有可能会更多。”阿里云智能全球销售总监蔡英华表示。
所谓“智算中心”,指的是采用人工智能计算架构,提供人工智能应用所需算力服务、数据服务和算法服务的一种公共算力新型基础设施。“以智生智”是它区别于其他数据中心的核心特点。在数实融合越来越紧密的今天,通用算力正在加速向AI算力演化。各行各业对于AI算力的巨大需求让智算中心逐渐走向台前。
然而,值得关注的是,传统智算中心达到一定规模之后,继续增加硬件资源会导致输出效率快速降低,以至于难以提升算力输出性能。蔡英华解释说道:“算力实际上是一种有成本的资源,不同于通用型计算,智能计算需要海量数据对AI模式进行训练,算力被损耗在数据迁移、同步等环节,千卡以上规模的算力输出最低往往仅有40%左右。这导致了智能算力成本高昂,制约了产业发展。阿里云智算中心通过体系化的核心技术自研,改变智能计算的损耗难题,将千卡并行计算效率提升至90%以上。”
例如,阿里云采用高性能自研Solar-RDMA网络,实现端对端最低2微秒延迟,配合无阻塞通信技术,让计算过程中的数据交换速度最高提升5倍;自然风冷、液冷等绿色技术的应用,让智算中心PUE最低可达1.09;大数据+AI一体化平台支撑开发与运维全流程,将模型训练效率提升11倍以上;一站式通用推理优化工具,对算法模型进行量化、剪枝、稀疏化、蒸馏等操作,可将推理效率提升6倍以上。
据了解,目前,阿里云AI大规模训练模型、AI Earth、数字人、电商等场景都已应用在张北智算中心平台上。乌兰察布智算中心主要服务场景涉及自动驾驶、生物制药、科学探索、元宇宙等。不久前,阿里云还与小鹏汽车合作建设了我国最大的自动驾驶的智算中心,让自动驾驶训练效率提升了170倍左右。
“智算不仅在于规模大,更是需要绿色、高效并且具备产业实践”蔡英华说道,“我们希望能够结合区域政策以及行业要素,为各种智算产业主体和企业、院校、科研院所提供一站式智算平台能力,形成因地制宜的产业联盟,共同推动区域数字经济发展。”