本文来自微信公众号“中国信息通信研究院”,作者/穆琙博柴瑶琳韩淑君。
根据IDC公司的统计,截至2022年年底,包括高性能计算中心、超算中心、智算中心,以及大规模数据中心在内的全球主要算力中心,算力资源利用率都不足15%。在亟须大力发展算力的背景下,这一问题显得尤为突出。这主要是因为传统的算力中心部署并未考虑最终用户的实际需要,简化刚性的基础网络连接未能感知上层应用的算力服务需求,最终在算力供需方面出现了严重失衡和“算力孤岛”现象。为了解决总体资源相对不足,局部资源相对冗余的现象,ICT(信息和通信技术,Information and Communications Technology)行业出现了计算网络化的发展趋势。
本文聚焦计算网络化这一主题,从国家战略、行业发展、技术演进三个方面入手,剖析计算网络化的发展背景,提炼计算网络化的概念和内涵,围绕其技术实现和部署实践,概述计算网络化的发展现状,最后给出发展建议。
战略驱动:大国竞争的新赛道
算力竞赛一直以来都是各国加速信息化升级,抢占技术布局的重点方向。随着“计算+网络”融合发展的不断深入,世界主要国家纷纷加大投入,在计算网络化方面,以新型计算基础设施为核心,掀起新一轮的国家竞赛。
美国自2020年开始,先后出台了《引领未来先进计算生态系统战略计划》《2021年美国创新与竞争法案》(S.1260)等战略文件,明确提出要综合构建覆盖“政产学研”的国家级算力新体系和全境覆盖的高速宽带网络。
欧洲于2021年3月发布了《2030年数字指南针》规划(《2030数字指南针:欧洲数字十年之路》),目标是到2030年加速部署1万个边缘节点,推动75%的欧洲企业使用云计算服务、大数据和人工智能服务,全面保持欧盟在数字经济新赛道上的领先优势。
中国政府高度重视算网基础设施的发展机遇。“十四五”期间,我国先后在“数字中国”战略、“新型基础设施”建设计划、“东数西算”战略等国家级建设指导文件中,明确了要发力算力网络,加快全国性算力网络枢纽的建设进程,进而系统性优化计算基础设施的整体布局,打通数字基础设施的发展大动脉。
行业驱动:产业创新的新锚点
为全面解决算力供需不平衡、全局利用效率低的行业痛点,弹性化算力连接和整体化算力调度技术成为ICT行业创新发展的新锚点。
面临指数级增长的科学数据、全球化的科学协作、无处不在的计算,以及由此产生的对数据传输、存储和共享的需求,传统的科学计算面临存不下、传不动、算不及、难共享等问题。科学大装置/科研设备攻关亟须支持“大算力+大连接”的融合设施。2022年5月,鹏程实验室在国家相关部门的指导之下,正式启动了“中国算力网”的发展计划,明确要“像建设电网一样发展国家算力网,像运营互联网一样运营算力网,让用户像用电一样使用算力服务”。2022年7月,在中国算力大会上,济南人工智能计算中心、青岛人工智能计算中心、武汉超算中心正式接入“中国算力网”,中国算力网络发展迈出关键一步。
通信行业是推动算力连接技术创新,加快算力调度服务升级的主力军。以“云网/算网一体”为目标,国内三大基础运营商先后启动了全局性发展战略,全面提升数字化承载能力。其中,中国电信以“云网融合2030”为发展目标,积极布局“云+网”,发力计算、存储等一系列关键核心技术,2023年成功上线了一系列算力调度平台;中国移动以公司数智化转型、高质量发展为目标,全面发力网、云、数、智、安、边、端、链等多要素融合。2023年,中国移动成功发布了梧桐大数据分布式协同计算平台;中国联通以CUBE-Net 3.0为目标,全面构建融合计算、存储、传送资源的算网一体目标架构,2023年正式上线了“粤港澳大湾区算力调度平台”,助力大湾区大数据中心的数字化建设。
技术驱动:技术融合的新趋势
从技术角度看,如何便捷地获取并使用算力,一直是IT领域发展的关键目标。计算网络化的概念起源自20世纪80年代计算机网络的出现,彼时的计算网络化强调通过网络连接分散的计算机,汇聚网络连接的各类硬件和软件资源,形成能力更为强大的计算系统。历经40年的发展,计算网络化经过了三个发展阶段,即单机独立运算阶段、域内规模互联阶段、跨域全面互联阶段。
单机独立运算阶段
以分布式计算的出现为第一个断代点,计算网络化的发展起点是以个人电脑和工作站为代表的单机独立运算阶段。这一阶段的计算设备和网络设备独立发展,以CPU、DSP、FPGA等为代表的计算芯片支撑了这一阶段的算力发展。
域内规模互联阶段
第二阶段就是以集群规模计算为主要特征的域内规模互联阶段。这个时期,计算网络化通过域内网络进行连接,可以形成规模更大的算力系统。从服务器集群到大规模集群,随着域内算力规模的不断增大,集群管理技术也不断增强,随之也带来集约化、能耗高,以及“算力孤岛”等问题,进而推动了第三个阶段的发展。
跨域全面互联阶段
第三个阶段,就是以标准化算力接入+一体化算力服务于一体的跨域全面互联阶段。这个时期,不同类型的算力中心,利用域间高速互联网络,实现多元一体的复杂算力系统。这个阶段包括了超算算力、智算算力、云算力、边缘算力等在内的各类算力,通过标准化的接口,借助IPv6+、算力网络、SD-WAN等先进网络技术,实现跨域全面互联,并提供一体化的算力服务,真正落实了计算网络化的发展目标。
计算网络化以算网融合为最终目标,旨在利用高质量互联网络连接算力软硬件资源,构建算力规模更大、服务能力更强的算力系统,其本质是一种算力资源服务。未来企业客户或者个人用户不仅需要网络和云,也需要灵活地把计算任务调度到合适的地方。
计算网络化是算网融合发展的重要趋势、必然路径与发展阶段。计算网络化应满足以下几个条件。
从基本内涵方面看,计算网络化强调以计算服务为核心,网络是算力服务的基础。
从呈现形式方面看,计算网络化最终要构建一个算力全面互联的一体化算力服务平台/系统。
从能力主体方面看,计算网络化依赖于各类算力设备与多元算力中心提供的算力服务能力。
从以网助算方面看,计算网络化利用高质量互联网络保障计算服务过程中的网络质量,并可通过网络的调度与优化,提升应用执行效率。
计算网络化有几个主要特征。
一是算力多元分散。算力多元分散特征指的是算力资源不再集中于单一的算力中心,而是分散在多个地方,具有异构多样的特点,并且在不同的算力中心之间,算力资源角色也不尽相同。在算力中心内部,不同体系架构的计算硬件相互协作,满足不同计算需求。
二是网络广域互联。网络广域互联是计算网络化的一个重要特征,它指的是计算网络中不同算力中心之间可以通过高速网络连接实现互通,同时还能够在多方面广域协同互联的基础上更好地实现资源共享、任务协同等目标。在高速网络连接方面,算力中心之间需要建设高速网络,以保证计算任务的高效执行和数据的快速传输。其中,高带宽和低延迟是最重要的指标要求。
三是资源弹性供给。资源弹性供给特征是指基于资源虚拟化技术实现跨域资源聚合,并能够根据用户需求和应用负载等因素实现资源的弹性调度和供给。在资源聚合方面,计算网络化利用虚拟化技术实现计算、存储、网络的资源聚合。计算网络化中的云化环境通常采用资源虚拟化技术,将分布在不同地方的物理资源汇聚成虚拟的资源池,以便于用户快速获取和使用资源。在弹性调度方面,计算网络化中的云化环境通常可以根据用户需求和应用负载等因素,实现资源的弹性供给和调度。
四是服务多维一体。服务多维一体特征是指计算网络化中的算力服务从单节点多层次供给模式向多节点一体化服务平台模式转变,最终实现算力服务的多维一体。在一体化算力服务方面,基于网络互联互通和资源协同共享,计算网络化要求构建跨各类算力中心的一体化算力服务能力。借助这种服务,算力用户可以通过统一的算力服务平台,根据地理位置、资源类型、配套软件等不同因素进行选择,快速构建应用。
五是应用规模部署。应用规模部署特征是指行业应用从定制化的应用按需部署方式转向规模化的应用分布式部署方式,实现应用的规模化和灵活部署。在应用按需部署方面,算力用户可以根据地理位置、数据存储位置、资源类型、开发环境等各类因素,选择合适的算力中心快速部署应用。服务提供商可以将应用部署运行在不同的算力中心上,不同算力中心的应用可以按需进行协同联动,满足不同地区的用户需求。在应用分布式部署方面,针对计算量大且存在跨域协作需求的应用,可以将应用分解为多个计算任务,由不同的算力中心协同计算。
总之,从几个阶段和计算网络的条件来看,在技术驱动之下,技术融合成为必然趋势。
计算网络化的技术实现
计算网络化的技术实现包含了边缘计算、高性能计算云、分布式云、雾计算等多种新兴技术手段。这里,以边缘计算为例,分析一下边缘计算与计算网络化的关系。
边缘计算是一种典型的计算网络化技术。通过聚合分散边缘计算节点的异构算力资源,边缘计算以网络连通云、边、端,实现协同联动,基于资源虚拟化技术实现资源的池化和统一分配,提供数字化、网络化、智能化服务,边缘计算涵盖计算网络化等多项特征。
在算力多元分散方面,边缘计算的算力资源广泛分布且多元异构,并且边缘计算具备云边协同、边边协同、云边端一体化等多种服务模式,算力中心角色多样,可满足用户差异化、定制化需求。
在网络广域互联方面,单一边缘计算节点的算力资源规模有限,因此往往采用云边、边边协同的服务模式,以高速网络连接为基础,协同利用多算力中心的算力资源,向用户提供低时延、多样化的服务能力。
在资源弹性供给方面,边缘计算以虚拟化技术为基础,实现分散异构资源的池化,进而支撑资源的统一管理与弹性调度。
在服务多维一体方面,边缘计算与5G、人工智能等新一代ICT融合创新,提供高效算力、海量接入、安全防护、智能分析等融合服务能力。
在应用规模部署方面,边缘计算的算力资源有限,通常采用按需部署模式,以合理利用算力资源、满足用户的定制化需求。
计算网络化的产业生态
随着计算网络化的战略布局和试点部署不断深入,算力产业涉及的设备提供商、电信服务商和算力提供商纷纷行动起来,形成了百花齐放的产业生态。
其中,设备提供商不断延展新业态,设备形态趋于一体融合。主流的IT设备商、CT设备商、感知及智能终端设备商不断迭代新的技术,最大程度提升和释放设备算力,提升设备的计算能力和传输能力。为了最大程度减少因为数据传输和计算任务协同带来的设备性能损耗,设备提供商积极转变思路,研发具有确定传输、高效计算、数据安全等功能的一体化可编程设备,实现新型设备对计算、传输,以及存储资源的一体化管理和调度。
电信服务商加速探索新模式,全面升级网络服务模式。基础电信服务商以移动边缘计算为网络服务升级的重要抓手,依托自有的骨干网络IP技术,将算力服务快速下沉到用户侧,为用户提供优质的算力服务,并提出“算力平台+算力连接”的服务新模式。增值网络服务商则利用自身在网络建设和运营方面的优势,结合新的技术和业务模式,面向视频直播、自动驾驶、家庭娱乐等场景,为用户提供多层次、多粒度的增值网络服务。
算力提供商发力算力连接,打造弹性高效的算力服务。从通用算力服务商、智能算力服务商到高性能计算服务商,算力供给侧全面发力算力连接网络,通过自建网络或者与运营商合作的方式,提高自身算力利用率。其中,“分布式云”“超算互联网”“多云互联”等新型网络架构成为算力供给侧新的关注点。总体上看,强调多个层面算力分解和实时弹性服务的“云-边-端”架构行业认可度较高。
我国计算网络化的现状
计算网络化的部署实践
面向前沿科技创新和全局算力部署,在未来算力需求持续增加的背景下,计算网络化的部署实践已经遍布各个领域。
在超算互联网方面,超级计算是推进大科学计划和大科学工程研发的重要支撑。然而,由于对网络技术的投入差距,在超算应用和超算服务等方面,我国与发达国家仍存在很大距离。
2023年4月,科技部正式启动了“超算互联网”项目。超算互联网是以互联网的思维运营超算中心,并连接产业生态中的算力供给、应用开发、运营服务、用户等各方资源,构建一体化超算算力网络和服务平台。预计到2025年年底,国家超算互联网将可形成技术先进、模式创新、服务优质、生态完善的总体布局。
在智能制造-智能质检方面,由于计算机、通信、消费类电子等3C产品通常对精密度和外观要求非常高,而微小结构件检测产量大、人力耗用巨大,缺陷类型多、数据难以收集。因此,传统的人工检测已经成为制造业效率提升和成本降低的瓶颈。
为解决这一挑战,工业领域开始规模化部署支持计算网络化的工业AI质检解决方案,即通过边缘计算技术对5G传输来的数据进行实时分析处理,借助机器视觉+人工智能深度学习算法提取关键特征指标,保障工厂生产效率的同时,实现无人化质检。
计算网络化的发展建议
作为一个新领域和新方向,计算网络化仍然需要整合“政产学研用”各方力量,形成合力。对此,本文有以下几点建议。
一是建立健全标准体系,引导计算网络化良性发展。当前,各国家均将计算网络化作为重要战略部署,但各类算力服务能力差异明显、服务质量良莠不齐。构建完善的计算网络化标准体系,通过健全的服务能力与服务质量评价标准,对云算力、超算算力、智能算力、边缘算力等不同算力体系进行整合统一,是引导计算网络化良性、规范发展的基本前提和根本保障。
二是加速构建网络基础设施,推进算力全面互联。与发达国家相比,我国网络基础设施的建设部署严重滞后,现有网络资源不足。结合SDN/NFV、SD-WAN、算力网络等未来网络技术,建立跨地域算力中心高速互连网络基础设施,改善算力中心之间的网络互连条件,提升环境网络互连的性能和数据传输的安全性,是实现算力全面互联、协同的重要基础。
三是夯实计算网络化技术底座,实现多元算力一体协同。计算网络化发展汇聚多元泛在算力,提供一体化算力服务,在满足用户差异化需求的同时,也带来了多元算力异构和跨域算力协同的挑战。需要积极开展计算网络化技术体系研究,突破跨域协同计算架构、异构算力统一管理与调度等关键技术,以加速计算网络化发展,支持多元泛在算力一体化、协同化服务。
来源:中国工业和信息化