本文来自微信公众号“twt企业IT社区”,作者/郑金辉。
在技术和行业发展的推动下,云计算基础设施已经深入到各行各业,已经形成了颇具规模的基础算力。同时,随着应用和数据的持续上云,我们也迎来了所谓的后云计算的时代。在这一时期,围绕着算力,我们又需要面对各类棘手的问题。近期有不少客户都在关注算力网络的问题,我们试着分析一下。
一、算力的发展变化与趋势
1、算力发展的发展趋势
近期随着ChatGPT的火爆网络,普惠型的AI已经到来。数据、算法、算力是智能时代的三要素,这三者已经成为推动数字经济发展的关键驱动力,三者相互促进。其中,算力是支撑数字化时代发展的基础与核心。随着我们走入数字经济时代,数据、算法、算力已经成为推动数字经济发展的关键驱动力。数据、算法、算力缺一不可,相互驱动。
随着云计算在各行业和领域的持续深入,算力需求呈现“量质并重”的态势,算力供给也从集中走向分散、从单一走向多元化。首先在需求侧,在产业数字化推动的推动下,对算力总量的需求呈现爆炸式增长的态势,同时科研等、AI等专业化算力需求对算力的种类和品质提出了更高的要求。在供给侧,传统集中式的算力供给模式向“云、边、端”分散布局的分布式和泛在化方向发展,同时也呈现出了从单一的算力种类向多种算力差异化融合发展的趋势。
2、算力存在的问题
1)融合管理难:在技术发展和政策推动下,算力多样性快速发展,导致算力融合管理困难;2)发展不均衡:在数字经济发展不均衡的总体趋势下,导致数据和应用的算力需求和算力供给的区域性不均衡;3)灵活弹性差:算力需求的场景愈加丰富,稳态算力需求之外,敏态算力需求比例加大,但应对之策尚未成熟;4)缺总体协同:算力布局缺少规划,节点之间缺少协同与调度,稳定性和安全性差,这一点不只是全行业性的算力问题,也是不少大B的算力问题。
基于以上问题,为了实现算力的融合管理、跨域共享和调度、弹性按需灵活供给,算力网络应运而生,成为算力资源健康发展的最优解。
二、算力网络的概念和认知
算力网络的目的是通过新型网络技术实现分散算力资源的全连接,实现资源的状态化和动态感知,通过资源管理、编排调度术实现资源按照业务的智能统筹和分配。用户的不同业务按照实际需求获取不同的算力类型和服务等级,用户无需关心算力的位置和实际部署环境。
这是算力网络的愿景,但是业内尚未对算力网络形成统一认知,也没有标准的定义。在业内,基本有两种认知:
第一种,算力网络主要由算、网以及脑三部分组成。其中,计算、网络属于基础设施,基础计算设施负责提供计算资源,基础网络设施负责连接网络,而脑负责全域动态感知、跨域协调调度、多域融合编排以及智能计算出最优协同方案。
第二种,算力网络由计算、连接和感知组成。计算是算力网络的核心资源;连接是将分散、异构、多层级、闲置的算力集合起来;感知是对具体场景算力需求的感知及算力资源的感知。
仔细分析,其实这两种观点,基本一致,我们甚至可以基本勾勒出算力网络的基本框架。首先大家普遍认为,计算资源应该是算力网络的核心和基本要素,是调度、编排和管理的对象。网络依然是连接的手段,连接算力需求和算力供给,连接算力资源和算力管理,连接虚拟和物理。剩下的部分就是算力管理与调度,我们暂时称之为算力大脑吧,主要负责算力的动态感知、融合管理、智能编排和精准调度。
根据以上分析,我们基本可以画出算力网络的整体框架,底层是我们的异构泛在的多元化计算资源,首先是技术上的异构和产品上的异构,然后是计算资源的空间和逻辑上的泛在化分布,构成了我们的算力资源层;在连接侧主要是确定性网络的应用,确定性网络是相对于传统的尽力而为网络而言的,典型的尽力而为的网络就是互联网。确定性网络目的是为算力提供带宽保证、时延保证,并提供高可靠性和高稳定性,主要技术包括FlexE,TSN,DetNet和DIP等等,再结合软件定义层与应用侧对接,这就构成了算力网络层;再往上就是算力的管理与调度,在这里需要完成算力感知、算力标识、算力路由、算力编排、算力调度,这些算是算力管理层,这里的算力管理不只是CMP云管那么简单,更是包括了编排和调度。然后除了算力管理,我们还需要关注算力运营,比如算力计量、FinOps、算力运营、算力交易等等,算是算力运营层吧。套用上面的概念,算力资源层=算,算力网络层=网,算力管理层+算力运营层=脑,加上配套的安全体系和智能运维体系,我们所说的算力网络框架就算齐活了。
从算力的演进和发展来看,大致可以分成三个阶段,第一阶段是资源连接期,重点是建设异构泛在的算力,在实现算力重分布的基础上实现算力资源的异构纳管和连接;第二阶段是融合运营期,实现以用户需求和业务需求为中心的按需资源管理和运营体系的探索和建立;第三阶段是算力的智能投送期,重点建设算力的智能编排和调度,实现算力智能投送,做到用户和业务无感。
有人经常让我多画点图,我比较懒,你们自己画吧,也许可以让ChatGPT帮忙画一下,哈哈哈。
三、算力网络的价值
说这么热闹,算力网络的价值在哪儿呢?站在算力资源管理和运营的角度说,就是开源节流和降本增效。
首先是节流和降本,就是,算力网络可以实现资源的跨域调度和流动,可以实现资源的有效利用,降低资源使用成本,进而实现绿色低碳等等宏伟目标。
然后是开源和增效,确定性网络技术的使用,可以有效提升算力质量,实现算力的低延时和确定性供给,这也将有效支撑产业侧新需求和质量算力的需求的满足,并持续推动产业侧业务场景创新。
四、算力网络面临的问题
目前阶段算力网络建设尚未形成统一的认识和标准,算力如何标识、如何度量都没有统一的标准,此二者是后续算力持续运营的关键和核心。在确定性网络技术的落地和应用上,也没有完全实现商用,很多技术尚待进一步验证,尚处在探索和验证阶段。同时,从多云纳管到多云统一运营也需要一个实践的过程,跨云的负载迁移和业务连续性建设,也需要进一步工程化实践和完善。最关键的是,算力融合和算力编排,算力、网络、应用、调度几个环节需要穿透,这个是一个难点,需要场景化的行业需求来验证,需要“AI+大数据+行业经验”几个要素相结合,才能构建与场景应用相呼应的算网编排体系。此外,安全和运维方面的问题和困难,就不在这里赘述了。
不管怎么说,算力网络是算力基础平台建设的重要环节,是实现云计算一统江湖的关键一战。以运营商为核心的算力网络生态建设,是这里面的决定性因素,如何提炼和推进业务需求与算力供给相融合的场景化解决方案是目前的当务之急。
原标题:算力网络,后云计算时代的决胜局;作者个人公众号“向云而生”