AIGC时代,智算中心如何打好自己的网络通信基础?

吴子鹏
当前,各种类型的多模态AI大模型层出不穷,且输出的内容越来越复杂,从文字、图片到视频、3D,这对背后支撑大模型运转的基础设施提出了多方面的挑战。

本文来自微信公众号“电子发烧友网”,作者/吴子鹏。

当前,各种类型的多模态AI大模型层出不穷,且输出的内容越来越复杂,从文字、图片到视频、3D,这对背后支撑大模型运转的基础设施提出了多方面的挑战。

大模型背后的算力基础设施主要分为三大核心环节:计算、存储和传输。其中,传输起到了串联的作用,要确保智算中心的高效运行,高性能的网络基础设施是不可或缺的。近日,在康普新年媒体沟通会上,康普企业网络大中华区总经理兼副总裁陈岚表示,2023年康普全球销售了38万公里的光缆,而38万公里的长度正好相当于地球到月球的距离。

康普企业网络大中华区技术总监吴健援引Dell’Oro方面的数据表示,400G、800G和1.6T将是以太网发展趋势,100G及以下的以太网连接或数据中心内部连接将迅速迭代到400G及以上。

不过,速率的提升绝不是简单地将更多光缆粗暴地塞进智算中心,而是有很多考量和挑战,我们看一下康普的解读。

布线是算力设施的基础

康普是网络连接领域的全球领导者,致力于通过塑造有线和无线通信以重新定义未来。在数据中心和智算中心领域,康普提供完整的尖端光纤连接解决方案组合。当前,AI大模型应用的高速发展进一步加快了网络基础设施部分的“光进铜退”,光联万物的全光底座逐渐成为刚需。

吴健指出,随着数据传输速率的持续提升,铜缆在应用中可能会逐渐减少。在400G之后,光纤连接基本上占据了数据中心的主导地位。特别是在结构化布线领域,铜缆的应用几乎看不到踪影。或许在一些短距离连接和DAC(直连式有源铜缆)等情境下,仍会有少量的铜缆应用,但这仅限于机柜内的2—3米范围。然而,在大规模部署中,特别是在高性能数据中心,尤其是智算中心这类场景中,铜缆不再扮演重要角色,因而光纤变得不可或缺。“在铜缆和光纤的选择上,客户基本上没有太多的自主权。随着技术进步,客户将逐步进入光纤时代和高速光纤时代。当然,铜缆并不会消失,在楼宇、物联网、安防等领域仍然占有一席之地。特别是以POE或电接口为主的终端方面,铜缆仍然是首选。”

当然,在铺设光纤时,也会有单模光纤(SMF)和多模光纤(MMF)的分别。其中,单模光纤只支持一个传播模式,适用于远距离高速传输;多模光纤支持多个传播模式,适用于短距离通信和一些特定应用。吴健对此表示,多模适用于短距离传输,单模适用于长距离传输,这一点非常清晰。如果需要传输距离较长,特别是超过2000米的情况,基本上选择单模是明智的。当然,多模的易用性比单模要好,对尘埃、弯曲等的容忍度更高,因此在机房的应用系统中,多模是更为可靠的选择。

吴健强调:“布线是数据中心或智算中心基础设施中的基础设施,但往往却容易被忽视。”

为什么这么说呢?因为布线不只要考虑到线缆的材质和功能,还要从智算中心的角度去考量。一个好的结构化布线方案,能够让智算中心不仅可以延长基础布线的生命周期,减少总体成本,还可以提供可靠的迁移和升级路径,让智算中心具有可持续发展的特性。

谈到AI大模型背后的智算中心建设,吴健称,在AI的推动下,智算中心密度会提高,包括电密度、端口部署密度、计算速率等,因此高密度、低延时、高速率、无损耗是AI智算中心的四个典型特点。这些典型特点自然就需要更高速的布线,400G和800G将快速普及;要求一个端口要有多个连接芯数;低延时要求大部分布线需要在100米以内;无损耗要求链路品质要高,不能因为链路或连接器件问题造成数据丢包;随着服务器速率和密度的提高,需要在机房内增加光纤线槽。

对此,陈岚补充道,相较于其他行业的网络建设,智算中心的交付时间较短,这也是客户在选择相关方案时需要考虑到的因素。

Propel助力智算中心可持续发展

为了应对上述挑战,在沟通会上,陈岚和吴健均提到了康普公司推出的高速光纤平台Propel。陈岚指出,Propel是为了满足大量数据中心和智算中心建设而应运而生的产品,不仅能够提升这些基础设施的建设效率,同时也能够满足绿色数据中心的发展趋势。

吴健则主要介绍了Propel的技术细节。Propel的推出主要为了应对一些新的技术趋势:首先是MPO16,多芯数并行技术,提供了8芯和16芯两种方案,在400G之后需求快速提升;其次是OM5,基于多模宽带技术,允许一条光纤容纳多个波长,实现了多波长的并行;第三是VSFF(微双工),它使得连接器件的尺寸得以缩小,以适应未来高密度的需求;第四是光纤连接器APC端面、研磨面,主要是用来减少回波损耗。

Propel能够为智算中心带来多方面的赋能价值。第一个是速率提升,Propel采用16芯光纤,可支持快速增长的400 G和800 G以及新兴的1.6 T。

第二个是灵活的连接方式。吴健以400G传输来举例,在100米内连接有400GSR8,另一个是在150米内连接有400GSR4.2,基于单模有DR4。其中,SR8需要MPO16,SR4.2需要OM5。未来,到了800G也需要这两种制式:800G SR8和800G SR4.2。对于这些技术,Propel在设计时都有考虑到,都能够支持。另外,Propel能够在一个平台里实现2芯、8芯、16芯甚至24芯的灵活拼合。

第三是在一个有限的空间里容纳下更多的双工,这就是微双工。光纤连接器通常采用的LC、SC、ST连接器是双工的,但它们的尺寸比较大,微双工解决了这个问题,进一步提升智算中心的高密度,也能够更好地应对智算中心1分4的需求——1个高速口,分成4个低速口,实现上联和下联1:1的速率比。

最后是消除损耗和丢包,这需要将研磨面做成8度斜面,使得反弹的信号不会影响到正常的信号。这种情况下,需要将不同研磨面的布线系统融合进去,这便是所谓的APC,指的是具有角度的物理接触面,这也融合到了Propel之中。

赋能中国智算中心建设

根据国际数据公司IDC、浪潮信息等联合发布的《2022-2023全球计算力指数评估报告》,全球AI计算市场规模将从2022年的195.0亿美元增长到2026年的346.6亿美元,其中生成式AI计算市场规模将从2022年的8.2亿美元增长到2026年的109.9亿美元。在此过程中,智算中心作为背后的基础设施,有了巨大的发展机遇和建设需求。根据中国信通院的统计数据,截至2023年3月,国内有超过30个城市正在建设或提出建设的智能计算中心。

我们上面已经提到,布线是智算中心建设的基础。面对庞大的市场需求,康普如何应对呢?吴健谈到,国内的生态更开放,国内设备商基本走以太网路线,会更倾向于采用开放、标准化的以太网网络连接来建立自己的智算中心。这是非常好的,因为这意味着在布线方面形成了一种标准化。由于康普的布线发展与以太网是相匹配的,并且是标准化的,所有的接口、速率、封包模式,甚至数据链路协议都是标准的。这将有助于国内的数据中心客户建立自己的智算中心。无论是过去还是未来,国外还是国内的技术,康普Propel都能够满足各方面的需求。

陈岚补充道,“着眼于中国市场,康普在中国拥有庞大的销售团队和技术支持团队。通常来说,技术支持人员是相对稀缺的,但我们的团队技术人员数量众多,因为我们认为在智算中心设计方面,需要在前期为客户规划和设计一个可持续使用长达十年甚至十五到二十年的数据中心,而不是仅仅满足短期需求。因此,我们的技术团队会与客户分享其他地区先进解决方案的经验,以便与同类客户进行比较。康普也强调了深入了解客户需求的重要性,以了解客户的真实需求、面临的挑战以及他们的最终目标。康普会为他们提供定制化的解决方案,而不是一概而论。这种定制化的做法,能够保护客户的初步投资。”

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论