本文来自全栈网络空间安全。
以太网是当前以及未来数据中心的主要技术,据相关数据显示,当前数据中心以太网占比已经接近95%。随着RDMA等技术在以太网的应用,预测未来数据中心以太网占比将持续扩大,以太网将向高性能计算网络和存储网络扩展,形成统一的高性能算力承载网。
面对数据中心高性能算力需求,传统的有损以太网已经无法满足要求。为了保障RDMA的性能和网络层的通信,对算力承载网提出高吞吐、低时延、零丢包等高性能要求。面向更高算力诉求的应用时,算力集群对高性能的数据承载网络提出了全新的挑战:
挑战一:AI算力训练流量密集,网络吞吐低成为瓶颈
网络负载分担不均问题是当前业界的一个重大的难题,Google就曾指出在其数据中心中存在多级HASH不均问题导致10K规模组网下整网吞吐低于25%的问题。
业界主流的负载分担算法均存在性能问题,不适用于AI训练场景。例如,HASH适用于流数量较多的场景,不适用AI带宽大流数少的场景,会造成严重的负载分担不均;Flowlet Switching算法不适用于AI这种连续大带宽的流量模型场景;Packet-based HASH需要接收端对流进行重组排序,否则乱序会导致性能急剧下降。
挑战二:网络拥塞导致动态转发时延大,影响计算和存储通信效率
与日俱增的高算力需求需要高效的大规模算力集群支撑,算力集群扩大一倍,任务拆分数量为原来的2倍,以Ring-Allreduce为例集合通信时通信次数为原来2倍。同时网络规模扩大一倍,网络拥塞概率增加,网络拥塞导致的计算效率下降更加凸显。在现有传统的集群应用中,服务器端和网络互相隔离、能力互不感知,网络只作为传递数据的管道使用,针对以太网尽力转发机制,网络容易成为拥塞瓶颈,导致计算效率下降,而传统的网络拥塞控制技术无法让算力得到充分释放。因此,如何有效利用网络资源,借助网络的全局视角,改进算力通信网络的拥塞控制,提升算力通信效率,成为新的挑战。
挑战三:网络故障收敛时间长,影响计算和存储业务性能和稳定性
数据中心物理链路数量随网络规模的扩大成倍增长,同等带宽1:1收敛,3级Clos架构物理链路数量为单归接入端口数量的3倍,即要满足16K接入,需要48K根线缆,96K个光模块。由于光模块器件或线缆损坏所导致的链路故障几乎无法避免。当链路故障发生时,传统收敛技术依赖控制面的动态路由协议进行信息交互和重新选路,收敛时间长,实际部署的大规模DCN网络的路由收敛时间甚至达到秒级乃至10s。因为链路导致的网络故障对业务稳定性产生负面影响,数据丢失导致IO归零,计算任务重启等,会造成在线实时敏感类业务性能的严重下降,影响业务体验。
挑战四:传统网络架构无法支撑超大规模算力集群
算力需求倍增,需要更大规模网络支撑。随着网络规模向10万节点演进,传统的3层Clos架构已经无法支撑如此规模的网络扩展,想要扩大规模需要采用4层Clos架构。但是,提升网络架构层级将导致网络节点增加,并由此带来网络时延的增加,如在3级Clos架构中,计算节点间交互需要经过5个网络节点,4级Clos网络架构,则需要经过7个网络节点,相比原来2层Clos的3个网络节点,网络时延增加了2倍多,无法满足并行计算效率要求。
挑战五:存算网络融合,计算和存储相互影响SLA难保障
数据中心是数据存储和计算的集散地,数据存储和处理广泛分布和共享于数据中心的各个角落,及时信息共享需要依赖连接存储和计算单元的网络。为了节省投入,计算和存储网络、以及管理网络融合部署成为业界新的尝试。存储和计算、管理三个网络平面融合,最高可以节省接近50%的网络投资。
网络融合带来的是业务流量融合,不同业务流量之间,会出现互相干扰,导致计算性能得不到释放。如何同时保障计算和存储业务流量公平混合调度,使得算力能够有效释放,这将对网络带来新的挑战。
数据中心网络演进阶段
标准以太网络采用尽力而为的工作机制,天然有丢包的特性对存储的性能稳定性带来了极大的影响。以太网为什么会丢包呢?当多台服务器向一台服务器同时发送大量报文,报文数量超过交换机的承受能力时,丢包就产生了。此时数据需要重传,这种返工带来的结果就是传输效率的降低。尽力而为网络已然成为了过去,高性能应用正在数据中心融合。在这一背景下,数据中心网络需要重构以实现高吞吐、低时延、高可靠性、强可扩展性。
产业数字化推动数据中心发展,推动数据中心网络不断演进,根据不同发展时期数据中心可以总结为几个阶段:虚拟化阶段、云化应用阶段、算力服务化阶段。
虚拟化阶段,数据中心为办公、邮件、web门户网站等提供虚拟化基础设施,实现数据大集中,计算和存储资源池化。此时数据中心传统以太网,在带宽、时延、可靠性方面都无法满足高性能计算和存储的要求,数据中心高性能存储需要承载在FC专网,而超算中心高性能互联则通过IB专网承载。通用计算以太网,高性能存储FC网,高性能计算IB网络,分别通过三种不同网络技术承载,需要各自独立管理维护。
数据中心云计算技术的快速采用助长网络中对以太网交换需求的增长,随着以太网400GE以太技术的商用,及800GE标准的发布,使得以太在带宽上已经超越IB,无损以太技术逐渐成熟,高性能网络开始往无损以太迈进。
数据中心云化应用阶段,数据中心为移动互联网、网上银行、政务云化等提供敏捷智能的服务应用,推进数字化转型。随着存储介质从HDD到SSD的提升,存储服务化以及RDMA技术在数据中心的广泛应用,对数据中心网络在带宽、吞吐、时延上提出新的要求。数据中心智能无损技术,满足全闪存以及RDMA的性能要求,并通过零丢包、高吞吐、低时延的无损网络实现通用计算、存储网络技术融合,数据中心网络开始迈入无损以太网时代。与传统计算和存储网络两种不同技术、两套管理系统、分散管理的烟囱式架构相比,无损以太网络技术实现数据中心存储网络以太化,实现计算和存储网络技术统一,运维统一。
随着机器视觉、语音识别、自然语言处理、自动驾驶等AI应用需求爆发,在数据中心算力服务化阶段,GPU/NPU算力开始规模化部署,数据中心朝E级/10E级更大规模算力互联演进,算力网络进入100G/200G接入400G高速互联时代。在面向更高算力诉求的应用时,新算力集群对网络提出了诸多全新的挑战。通过超融合以太技术的应用可有效应对未来算力应用需求,具体来看,超融合以太技术具备四大优势,一是可通过网络架构创新满足超大规模网络扩展,二是可通过全网负载均衡技术实现AI算力100%释放,三是可通过端网协同减少算力冗余通信,四是可通过全新的智能拥塞控制算法,实现计算网络和存储网络融合混合调度。
超融合以太技术的提出为数据中心网络发展指明了方向,也成为应对未来超大规模算力集群高性能算力需求的重要解决方案。超融合以太技术以实现数据中心网络融合充分释放算力为目标,通用计算、存储、高性能计算统一承载在0丢包以太网技术栈上,打破传统分散架构限制,实现从三张网到一张网的融合部署,统一网络架构,推动无损网络向超融合网络架构演进,实现算力网络融合。