今天,数据中心不再是一座孤立的机房,而是可以通过网络互通互联。
近年来,人工智能、虚拟/增强现实、物联网等新兴技术的涌现都离不开云计算的支持。云计算是数百万台分布在全球各地数据中心的服务器通过网络连接在一起组成的大型分布式计算平台。今天,数据中心不再是一座孤立的机房,而是一个建筑群。一个数据中心可以包含很多个分支数据中心,它们所处的位置不同,却可以通过网络互联起来,共同完成相应的业务部署。而实现这些数据中心间互通的纽带就是——数据中心间互联技术。
实现数据中心间互通的纽带——DCI网络
根据Cisco发布的云指数报告,过去五年,数据中心间的互联带宽保持了近33%的年增长率,互联带宽达到了~100Tb/s量级。
图1 Cisco发布的数据中心年流量增长趋势
当把若干个数据中心用光纤连接起来,并且采用光通信技术承载他们之间相互的信息传递,这就组成了数据中心间互联光网络(后面简称DCI网络)。
图片从不同角度分析,DCI网络有一些明显特征:
网络拓扑以点到点和简单组网为主,复杂度较低。
城域数据中心间互联距离较短,单位传输成本的降低对数据中心很有吸引力。
更加关心网络时延,小的设备时延可以减轻数据中心选址的困难。
互联业务种类相对单一,以100G的以太网为主,电层设备复杂度较低。
结合流量的快速增长,模块化的设备以及灵活可扩张的组网方式更受欢迎。
特殊的硬件要求,例如容纳在服务器机柜中,满足前后出风、高压直流供电方式等。
为了更好地建设和维护数据中心间互联网络,适配快速增加的数据中心间流量,DCI技术应运而生。
从黑盒封闭到开放解耦
在过去的网络运营体系中,系统厂商提供整套解决方案,包括设备安装、系统调试、运维支持等,系统整体类似于封闭的黑盒,不同厂家的硬件、软件均不具备兼容互通的可能。
其次,成本问题。受益于相干光传输技术的不断演进,单波速率从100Gb/s增长到了800Gb/s,由于电层设备的主要成本来自于光学器件,因此单波速率提高有利于降低单位成本。不过,过去10年,很少有一家系统厂家持续保持产品上的领先优势。这意味着,如果继续采用封闭系统构建网络,将无法第一时间享受到技术发展的红利。
图2电层单波速率和单纤容量的演化图
另外,封闭系统中的私有网管软件无法与用户已有资源管理、权限管理、建设流程和日常维护系统打通,难以提升端到端的自动化水平,从而缩短业务开通时间。
DCI技术的第一个突破点就是打开封闭的系统,让用户可以按需定制自己的网络,规避独家绑定,确保供应安全。
阿里云基础设施光网络团队,研究提出开放解耦DCI技术的概念,并和行业合作伙伴一起推进了DCI技术生态的形成和壮大,突破了传统封闭式的系统理念。
DCI网络可以看成由底层硬件设备和上层管控软件共同组成,其中设备分为光层设备和电层设备,两者的角色类比于城市的交通设施,光层设备类似基础道路,电层设备则是路上的交通工具。和电层技术的快速演化相比,光层设备属于基础设施中的基础设施,技术演进相对较慢,往往都会超期服役。所以,解耦的第一刀就切在这里,把公路和交通工具分割开,把光层和电层解耦。光层设备和电层设备来自不同厂家,同时在一套光层设备组成的“公路”上,可以支持来自不同电层设备厂家的“交通工具”。
图3日常生活中的道路上可以自由行驶来自不同厂家不同类型的交通工具,开放解耦DCI网络也拥有类似的能力
同时,需要设备提供统一接口能力。软件定义网络(Software defined networks)的发展,Netconf协议得到了大多数设备厂家的共识。阿里巴巴也在早期加入了OpenConfig组织,参与光网络相关的数据模型定义。基于Netconf协议和OpenConfig模型,可以采用第三方云软件平台直接对接厂家设备实现管控,这种完全解耦的系统减少了管控路径上的环节,对响应新增网络级功能需求提供更好的主动性和自由度。
图4开放解耦的DCI网络
灵活架构支持网络可扩张
封闭系统打开后,下一步就可选择更合适的硬件来构建可灵活扩张的DCI网络。
在较长一段时间内,光层设备的合分波单元仅支持固定通道间隔,实际上,随着单波速率不断提升,电层设备需要的频谱宽度也在不断增加。为了兼容不断发展的单波速率,固定间隔的合分波单元要升级到基于波长选择开关(Wavelength Selective Switch,WSS)的灵活合分波单元。
图5灵活合分波单元与灵活栅格频谱,为了支持更多的上下路端口,需要将两个WSS进行合并
在规模大的DCI网络中,业务分布更复杂,需要考虑基于ROADM(Reconfigurable Optical Add Drop Multiplexer)的Mesh网络架构。在数据中心较为分散的城市,往往会采用星型架构。如果主站不具备光层穿通能力,那么卫星站之间的流量需要在主站进行光-电-光转换,不仅增加额外成本,还会增加站点间的传输时延。当主站是ROADM时,卫星站之间的业务可以在主站穿通直达对端,并且穿通的波长和路由都可通过网管软件进行配置,大大减少DCI网络的人工运维成本,提升业务开通效率。
图6 IP网络与能够支持ROADM的DCI网络之间的协同
点到点场景下,光层在第一天就已经建设完毕,光电解耦是合理的。在Mesh DCI网络中,考虑到后续站点的增加和网络规模的扩大,光层需要进一步解耦。我们推荐将ROADM按照方向进行解耦,同时确保光复用段(Optical Multiplex Section,OMS)内的设备都来自于同一个厂家。
这样的方式既可将DCI网络中的光层部分有效切割,同时又避免陷入过多的设备之间协议的约定细节中。网络建设的第一天只有站点A和B之间的连接,设备来自于供应商M。第二天增加了一个新的站点C,那么站点C与站点B之间的连接,站点C与站点A之间的连接分别由供应商T1和T2承建。
为了应对不同厂商设备连接头不同导致的无法互通的问题,我们设计了一款支持灵活插卡的万能连纤盒,由全连接背板以及方向适配插卡组成。每个方向的适配板卡可以匹配厂家的接头规格,并将厂家的线序“翻译”成通用线序。这样,任意两个方向之间通过万能连纤盒实现了全连接。可以说,万能连纤盒以四两拨千斤的方式实现了光层异构,为DCI网络规模的扩大打开了自由之门。
图7基于万能连纤盒的异构ROADM和光层解耦方案示意
管控自动化提升网络效率
同IP数字通信系统相比,光网络中依然保留了大量的模拟属性,例如光功率如何调整,放大器的增益、斜率如何配置等。为了应对这样的挑战,需要能实现可供第三方使用的开放光网络设计工具。通过抽象出多层级模型,描述不同厂家设备的行为和功能,厂家的差异性体现在模型的关键规格参数中。结合实际组网拓扑数据、业务资源数据等信息,规划器求解端到端最优化问题,可以计算获得所有设备上的目标配置值以及此时的性能余量。
在已有网络中新增业务或者做配置优化时,需要像一个攀岩高手一样,小心地选择从当前配置到目标配置的调节路径。受限于光放大器非线性、光纤Kerr非线性以及受激拉曼散射效应的影响,不仅当前调节的业务通道需要关注,相邻的通道以及附近相关OMS上的通道同样需要监测。在配置器中引入了实时状态检查单元,实时采集的设备性能数据经过定制的检查逻辑,判断当前调节路径是否存在风险,不断更新。如此反复,最终安全的实现预设的调节目标。
图8可供第三方使用的开放光网络设计工具和自动化配置流程
发展和挑战
不断涌现的互联网服务以及快速演进的云计算,推动了DCI网络在过去的十年里蓬勃发展。开放解耦的系统,简单且灵活的架构体系以及软件自动化是DCI的主要创新点。在可预见的未来里,5G网络、物联网(IoT)、增强现实技术(AR)和虚拟现实(VR),以及边缘云计算将继续推动DCI网络快速增长。一个开放的DCI生态将会更有利于新技术的发展和引入,推动技术创新和业界繁荣,更好地满足客户和业务的需求,并最终推动云计算迈向新的阶段!