随着移动互联网以及物联网的广泛应用,数据中心数据流量呈爆炸性的增长,根据思科发布的全球云指数报告,到2020年云计算的流量将占全球数据中心流量的92%,超大规模的数据中心将会占到全球数据中心流量的53%。
超大规模数据中心网络带宽的需求几乎一年半至两年翻一番,为了应付数据中心东西流量的不断增长,超大规模数据中心平均每三年对网络系统进行升级,国内的超大规模数据中心在2014年开始部署40G以太网,2017年开始部署100G以太网,按照这个进度, 国内的超大规模数据中心预计于2020年开始部署400G以太网,大约2022年400G以太网会进入大规模部署阶段。
国内超大规模数据中心网络演进路径
光模块构造
光模块的主要功能是实现电-光(E-O)和光-电(O-E)信号的转换。光模块通常由光组件、电路、光接口、电接口组成,其中光组件(OSA)包括光接收组件(ROSA)、光发射组件(TOSA)、光发射接收组件(BOSA)。电路部分包含发射激光器驱动电路,接收器放大电路,温度监控/控制电路。
光发射组件(TOSA)主要实现电光转换,包含激光驱动器LDD、激光器LD、TEC致冷器、隔离器、Mux合波器、耦合透镜等器件。光接收组件(ROSA)主要实现光电转换,包含PD光探测器、TIA跨阻放大器(配合探测器一起使用,用以放大信号)、Demux分波器、限幅放大器LA(主要把TIA放大的逻辑信号变为数字信号)等组成。
电路除了实现对激光器(Tx部分)的直流驱动和信号调制,另外对接收器(Rx部分)的信号放大和处理以及通过MCU(主控制单元)实现对模块的逻辑控制,MCU的功能包括时序、功率、温度、告警等。
光模块主要部件
光芯片和电芯片是光模块中最关键的部分,占光模块成本的80%左右,光芯片包含激光器芯片和探测器芯片。电芯片包括CDR(时钟和数据恢复)、TIA跨阻放大器、LA限幅放大器、LDD激光驱动器、MCU主控制器等。
激光芯片按照发射方式可分为:面发射器和边发射激光器。面发射激光器目前市场上主要为VCSEL(垂直腔面发射)激光器,VCSEL激光器具有体积小、耦合效率高、功耗低、易集成、价格低等优点,VCSEL激光器一般用于数据中心短距离应用。边发射激光器包括FP(法布里-珀罗)激光器和DFP(分布式反馈激光器)。FP激光器具有输出功率较大、发散角小的优点,一般用于低速、中程距离比如10km以内的应用。DFB(分布式反馈)激光器在FB激光器基础上增加了衍射光栅,从而对特定波长进行筛选,可实现单一纵模输出,DFB激光器具有输出功率大、光谱窄、色散小、调制速率高、距离远等优点,一般用于高速的、40Km以内距离应用。
激光LD芯片按照调制方式可以分为,DML (直接调制) 激光器和EML(外部调制)激光器。DML激光器通过改变激光器注入的电流来控制激光器输出的强度,DML激光器体积小,功耗低,但是消光比小、啁啾大,一般用于10km以内的应用。EML激光器在DML激光器基础之上增加了EAM(电吸收调制器),通过电吸收效应来调制信号强度,EML激光器调制速率高、抖动小、色散小、消光比大、啁啾小、眼图裕量大, EML激光器比DML激光器功耗高,为了保证调制信号的稳定,EML需要增加昂贵的制冷器TEC,因此EML成本较高,一般用于40km以内的远距离应用。
激光器分类
探测器PD芯片的主要作用是把光信号转换为电信号,有两种类型的探测器,一种是光电二极管(PIN),另外一种是雪崩光电二极管(APD), PIN灵敏度相对较低,成本也较低,APD利用雪崩倍增效应提高信号接收灵敏度,APD一般应用于40km以上长距离的场景,APD成本远高于PIN。
400G光模块封装方式
衡量数据中心光模块的主要指标是密度、功耗、成本。热容(Thermal Capacity)是衡量光模块功耗的指标之一,热容越大,表示光模块能承受的功耗越大。400G光模块按照封装方式主要分为CDFP、CFP8、QSFP-DD、OSFP。CDFP和CFP8尺寸较大,热容较高,主要用于电信市场。QSFP-DD向前兼容之前的QSFP-28,尺寸最小,密度较高,QSFP-DD更适用于短距离的数据中心使用,QSFP-DD 支持者比较众多包括Facebook, Alibaba,Tencent等公司。OSFP MSA支持者包括Google、Arista,OSFP尺寸较QSFP-DD稍大,QSFP-28光模块需要增加一个适配器才可以跟OSFP插座相互兼容,OSFP可以向后支持800G,OSFP自带散热器,能够支持12w-15w热容,OSFP更适用于电信市场。
400G光模块封装方式
400G光模块命名规则
IEEE802.3工作组对光模块的命名规则进行了定义,例如400G SR4.2的名称中,400G代表速率是400Gbps,S代表数据中心内部机柜之间互连,距离一般在150米以内,4代表光纤对数,也就是8芯光纤,2代表每芯光纤上有2个波长。
IEEE光模块命名方式
m代表物理介质相关层(PMD), PMD主要实现将物理介质连接层(PMA)传来的信号转换成特定的介质(铜缆、单模或者多模光缆)中传输的信号,主要有以下的PMD类型:
光模块类型
数据中心400G解决方案比较
数据中心主要包含三种应用场景,机柜内ToR交换机和服务器互连,机柜间交换机互连和数据中心之间互连(DCI)。
数据中心应用场景(来源:C-Link)
ToR交换机和服务器互连
ToR交换机和服务器互连有两种方案,直连铜缆DAC和有源光缆AOC。DAC传输距离随着网络速率的提升而变短,DAC又可以分为ACC(有源铜缆)和PCC(无源铜缆)两种,400G PCC无源铜缆距离最远支持2.5米,400G ACC有源铜缆的距离最远可达5米。
DAC的优点是价格低,缺点也非常明显,就是距离短,另外线缆笨重,理线困难,随着数据中心服务器网络速率的提升以及服务器密度的提高,DAC对于服务器机柜散热是很大的挑战。
AOC具有重量轻、距离远、抗电磁干扰(EMI)、容易理线等优点,AOC采用多模光纤理论上最大的传输距离150米,但是AOC由于两边带模块,不适于跨机柜列布放,AOC一般用于距离小于30米的场景。
交换机互连光模块比较
数据中心Spine-Leaf交换机互连或者Leaf-ToR交换机互连目前有四种400G方案,400G SR16由于使用光纤芯数较多,大多数超大规模数据中心用户表示不会采用,我们在这里不作讨论。
首先,从光模块的成本角度来看, 400G SR8方案采用目前市场上成熟的25G波特率 VCSEL激光芯片,信号采用PAM4脉冲幅度调制方式,25G波特率VCSEL激光芯片目前在市场上已经非常成熟,因此400G SR8光模块成本最低。
400G SR4.2光模块采用双波长的25G波特率VCSEL激光芯片,需要采用2:1 Mux合波器和1:2 Demux分波器,增加了光模块的成本,另外400G SR4.2光模块生态系统不是非常完善,光芯片供应商只有一家,因此400G SR4.2光模块成本明显要高于400G SR8光模块。
400G DR4光模块采用较贵的DML激光器或者SiPh硅光技术,硅光技术能够将传统的光器件例如调制器、探测器等通过互补金属氧化物半导体(CMOS)工艺刻蚀在硅基底上,使光模块功耗、体积和封装成本大幅降低,但是硅光技术目前处于产业发展的早期,出货量较低,因此无法形成规模效应,根据LightCounting最近的研究报告,目前基于硅光技术的模块整体出货量相比较传统的基于磷化铟(InP)或者砷化镓(GaAs)材料的光模块低很多。
传统光模块和硅光模块市场份额比较(来源:LightCounting)
目前主流交换机ASIC芯片采用25G波特率PAM-4信号,而400G DR4光模块上采用50G波特率 PAM-4信号,也就是单波100Gbps,为了实现交换机电信号和光模块电信号速率一致,400G DR4光模块内需要增加一个变速器(Gearbox)把8x50Gbps转换成4x100Gbps,变速器会导致成本以及功耗的增加,所以400G DR4 光模块在三种方案之中成本最高,400G DR4适用于交换机互连距离在150-500米的场景。
400G DR4变速器示意图(来源:Arista)
从布线角度来看,400GDR4采用8芯单模光纤并行传输,光纤连接器采用APC(斜8度) MPO/MTP-12或者MPO/MTP-8,斜8度连接器能够降低回波损耗,降低整体光纤链路损耗,保证误码率。
400G SR4.2 采用8芯多模光纤并行传输,光纤连接器采用 MPO/MTP-12或者MPO/MTP-8 。400G SR8采用16芯多模光纤并行传输,为了减低回波损耗,光纤连接器采用斜8度APC端面的MPO/MTP-16光纤连接器。MPO-16光纤连接器键位采用了偏移设计,以防止和MPO/MTP-12或MPO/MTP-8混淆使用。
MPO/MTP-16光纤连接器(来源:US CONEC)
对于新建的数据中心,为了支持400G SR8光模块,建议采用MPO/MTP-16光纤布线系统,能够直接支持400G SR8以太网。
新建数据中心支持400G SR8布线场景(来源:US CONEC)
对于目前已经部署了MPO/MTP-12或者MPO/MTP-24布线的数据中心, 可以通过更换4x3 MPO/MTP转换盒的方式来实现平滑升级到400G SR-8。
旧的数据中心支持400G SR8场景(来源:US CONEC)
从应用角度来看,400GSR8 可以支持最多类型的扇出,包括4x100G,8x50G以及2x200G扇出,400G SR4.2和400G DR4都可以支持4x100G扇出。
交换机互连400G光模块比较100-500m
数据中心网络总体拥有成本包含了光模块成本和布线成本, 400G SR-8虽然需要比较多的光纤芯数,但是数据中心普遍采用模块化设计,通常交换机互连距离一般在50米左右,因此布线成本的差异相比较光模块成本差异低很多,另外400G SR-8生态系统最为完善,能够供货的光模块的厂商最多,支持的扇出应用最多,因此对于新部署的数据中心,在115m的距离以内400GSR-8的整体拥有成本最低,400G SR-8是400G交换机互连性价比最高的解决方案。
数据中心交换机互连总体拥有成本比较(来源:Panduit)
数据中心互连光模块比较2-10km
对于2km-10Km距离范围内的数据中心互连有四种方案,400G FR8需要8个DML激光器,为了降低光模块激光器的数量和复杂程度,400G FR4 光模块仅需要4个EML激光器,降低了器件成本和组装成本。400G FR8采用LAN-WDM波分复用技术,支持八个波长,每个波长传输50Gbps,400G FR4采用CWDM技术,支持四个波长,单波长支持100Gbps,就目前的市场来说,单波长100Gbps意味着必须采用昂贵的50G 波特率光芯片和50G 波特率电芯片。
如下图所示实现100GDR传输有三种方案,方案一采用4:1变速器,将交换机4x25bps电信号转为光模块1x100G bps电信号,光模块功耗3.5W;方案二采用2:1变速器,将交换机4x25bps电信号转为光模块1x100G bps电信号,光模块功耗2.5W;方案三采用单波100Gbps,光模块不需要昂贵的变速器,另外功耗降低为1.5W。
100G DR不同方案功耗比较(来源:Arista)
单波100Gbps的好处是避免使用昂贵的变速器,降低器件成本,另外也会降低光模块的功耗。因此,随着芯片制造技术的改进和50G 波特率芯片出货量的增加, 400G FR4在市场上最终会替代400G FR8 。
数据中心互连网络演进路线图(来源:Molex)
400G FR4采用20nm波长间隔,波长间隔越大,对于合波器Mux/分波器Demux要求越宽松,激光器无需致冷,光模块成本越低。400G LR4波长间隔仅为5nm,所以需要增加致冷器TEC来控制温度, 400G LR4光模块成本较400G FR4高。因此在2km距离内,400G FR4是比较经济的解决方案。
数据中心互连光模块比较2-10km
数据中心互连光模块比较40km
对于距离在40km之内的数据中心互连,可以采用400G ER8或400G ER4,400G ER8采用昂贵的EML激光器,以及昂贵的APD探测器,还需要采用Mux合波器和Demux分波器,此外EML激光器功耗比较高,为了保证调制信号稳定,需要增加致冷器TEC,这些都导致400G ER8和400G ER4光模块成本高居不下。400G ER4和400G ER8的区别是,400G ER4采用单波100Gbps,也就是采用昂贵的50G波特率EML激光芯片,400G ER8采用目前市场成熟的25G波特率EML激光芯片,另外400G ER4光模块需要将在交换机一侧的8X50Gbps电信号转换为4x100Gbps电信号,因此400G ER4比400G ER8需要多加一个变速器(gearbox),因此400G ER4价格远高于400G ER8。
数据中心互连光模块比较80km
随着网络速率的不断提高,基于简单的开关键控(On Off Keying)幅度调制的传统直接检测方式会使光信号频谱变宽,导致串扰的出现,因而传输距离下降。
相干检测通信正在从远距离的通信场景渗入到数据中心互连场景,相干检测是一种更复杂的、多维度的信号调制方式,它综合了幅度调制、相位调制和偏振调制的方式,从而在一个波特里面承载更多的信息。
光互联网络论坛OIF(Optical Internetworking Forum)正在制定400G ZR的规范,该规范采用相干检测和密集波分复用DWDM相结合的方案,400G ZR采用更复杂的偏振复用16级正交幅度调制(DP-16QAM)方式,能够支持80km传输距离。400G ZR光模块除了需要采用昂贵的ITLA集成可调谐激光器组件、IQM集成IQ相位调制器、高性能的DSP数字信号处理器(用来补偿色散和偏振色散)、ICR集成相干接收机(用来检测复杂的调制光信号), 400G ZR光模块价格大约是400G ER4价格的两倍。
数据中心互连光模块比较80km
总结
最后总结一下数据中心400G光模块的选择
●不超过2.5米的ToR交换机到服务器互连场景,可以使用400G DAC
●不超过30米的ToR交换机到服务器互连场景,可以使用400G AOC
●不超过100米的Spine-Leaf交换机互连场景,宜使用400GBASE-SR8 QSFP-DD光模块,布线采用MPO/MTP-16 OM4多模光纤
●不超过150米的Spine-Leaf交换机互连场景,可使用400GBASE-SR4.2 QSFP-DD光模块,布线采用MPO/MTP-12 OM5多模光纤
●不超过500米的Spine-Leaf交换机互连场景,可使用400G DR4 QSFP-DD光模块,布线采用MPO/MTP-12 OS1a单模光纤
●不超过2Km的数据中心互连场景,可使用400G FR8 QSFP-DD光模块 OS2单模光纤
●不超过10Km的数据中心互连场景,可使用400G-LR8 OSFP光模块OS2单模光纤
●不超过40km的数据中心互连场景,可使用 400G-ER8 OSFP光模块 OS2单模光纤
●不超过120km的数据中心互连场景,可使用 400G-ZR CSFP2相干光模块 OS2单模光纤
数据中心应用场景及光模块选择