本文来自SDNLAB。
数据中心在现代社会扮演着至关重要的角色,它们是数字化时代的神经中枢,支持着云计算、大数据、人工智能等技术的快速发展。在传统的数据中心中,冷空气通过充斥着计算、网络和存储系统的机架被加热后,通过冷却设施捕获并排出。
但这仅适用于传统的数据中心,随着计算需求的不断增加,传统数据中心面临着巨大的挑战,包括能源效率、资源优化以及冷却问题。铺天盖地的AI大模型时代,当着手部署用于训练AI模型的系统的那一刻,GPU节点可以轻松消耗整个机架的功率,这迫使数据中心运营商做出一些重大的设计改变。本文将探讨人工智能如何改变数据中心建设和冷却,以及其对数据中心行业的影响。
数据中心建设的革新
人工智能应用通常需要大规模的高性能计算资源,包括GPU和TPU等加速器。因此,数据中心需要具备足够的计算能力来支持这些应用的训练和推理。这意味着数据中心需要更多的服务器和更强大的网络基础设施,以确保高性能计算任务能够顺畅执行。
特斯拉似乎已经意识到了这一点。这家美国电动汽车制造商正在寻找人员来帮助其建立“同类首个数据中心”。
近期,该公司表示正在寻找一名数据中心高级工程项目经理,他将“领导特斯拉首个此类数据中心的端到端设计和工程,并将成为特斯拉数据中心的关键成员之一”。
目前尚不清楚所谓的“同类首个数据中心”是什么意思,推测它可能与去年在Hot Chips上展示的定制Dojo AI加速器有关。
特斯拉计划从现在到2024年底向该项目投入超过10亿美元,以加速其自动驾驶软件的开发。整个系统的运算能力可能超过100 exaFLOPS,预计相当于BF16的性能。这意味着特斯拉必须找到能够容纳该设备的地方。
然而,构建和管理一个能够提供足够电力和冷却以保持AI加速器正常运转的设施可能是一场噩梦。
Dojo是一台可组合的超级计算机,完全由特斯拉内部开发。从计算、网络、IO,到指令集架构、电力传输、封装和冷却,一切都是定制的,目的是加速特斯拉的机器学习算法。
该系统的基本构建模块是特斯拉的D1小芯片,其中25个使用台积电的晶圆系统技术封装到Dojo训练模块中。总而言之,这个半立方英尺的系统具有11GB SRAM、9TB/s的结构连接,并且可以管理9 petaFLOPS的BF16性能。
将所有性能塞进如此紧凑的外形尺寸已经带来一些挑战了,例如如何为单个15kW加速器提供动力和冷却,更不用说构成1 exaFLOPS Dojo V1系统的6个加速器了。这还只是加速器,你还需要为所有用于通过加速器提供和协调数据流的支持系统提供动力和冷却。
然后是高速网格的问题,这可能会限制这些模块的部署方式。在这些速度下,将它们包装得越紧密越好,但热负荷也越大。因此,如果特斯拉完全放弃使用传统机架的想法而转而采用全新的东西,也就不足为奇了。
无论该系统最终采用何种形式,有一点是肯定的:无论特斯拉决定在哪里部署该系统,都将需要超级计算水平的冷却能力。
数据中心冷却的重要性
数据中心冷却是现代IT基础设施中的一个关键问题,推动了创新系统和解决方案的发展,涉及空调、水冷技术和其他基于液体的机制,以确保最佳性能和能源效率。由于冷却系统约占数据中心总能耗的40%,因此成本也是一个关键考虑因素。数据中心冷却在维持系统性能方面发挥着至关重要的作用。
什么是数据中心冷却?
数据中心冷却是指用于调节数据中心设施内的温度、湿度和气流的设备、系统、方法和技术。由于数据中心通常容纳数千台服务器、IT设备和其他产生大量热量的电子设备,因此适当的冷却对于保持最佳性能和防止过热至关重要。
数据中心冷却的目的是什么?
数据中心的冷却系统用于将服务器、存储设备、网络硬件和各种其他设备运行时产生的热量散出去。这种热量以温度的形式测量,是在电能转化为热能时产生的,这一过程是由于电子元件效率低下而发生的。
除了管理热量外,数据中心冷却系统还可以维持设施内适当的湿度水平。这样可以防止静电和冷凝的积聚,这两个因素都会对电子设备造成重大损坏。
数据中心冷却的主要目的是维持适合IT设备运行的环境条件。行业组织ASHRAE建议数据中心的温度保持在18°C至27°C范围内。ASHRAE还建议数据中心的湿度水平应在40%至60%的范围内,具体取决于具体的设备和配置。
为什么数据中心冷却很重要?
数据中心冷却之所以重要,原因有很多,包括性能、防止停机、设备寿命和能源效率等:
#性能
数据中心的过热会产生“热点”,导致处理器和内存等服务器组件出现故障。过热时,计算机系统可能会变慢、冻结,甚至遭受永久性的硬件损坏。适当的冷却可以使系统能够保持最佳性能和服务器的板载逻辑。
#防止停机
过热可能会导致系统故障并导致停机。在数据中心,停机不仅会造成破坏,而且代价高昂。实施适当的冷却技术有助于防止此类问题。
#设备寿命
长时间暴露在高温下会缩短硬件的使用寿命。相反,保持凉爽的环境可以延长设备的使用寿命。还需要注意的是,湿度过高会对设备造成损害。当潮湿的灰尘颗粒粘附在电气元件上时,会减少热传递,甚至会导致腐蚀。
#能源效率
高效的冷却系统消耗更少的能源和水,使其更加环保且更具成本效益。传统的“机械”数据中心冷却方法(例如空调)可能非常耗能并消耗大量的水。因此,采用使用较少能源或水的现代冷却解决方案对于降低运营电力成本特别有利。
人工智能已经在改变数据中心的面貌
人工智能基础设施提出的冷却和电力要求已经促使一些大型超大规模企业和数据中心运营商重新评估他们如何构建数据中心。
Facebook母公司Meta也是推动这些变革的公司之一。该公司在人工智能研发方面投入巨资,去年使用了由16,000个英伟达A100 GPU组成的人工智能超级计算机。
在去年的OCP峰会上,Meta展示了其Grand Teton AI训练平台以及Open Rack v3(ORV3)规范,该规范旨在适应系统的更高功率和热负载。例如,根据Meta的规范,单个母线可以支持30kW的机架。
Meta的基础设施副总裁Alexis Bjorlin在博客中写道:“ORV3生态系统可以适应几种不同形式的液冷策略,包括空气辅助液体冷却和设施水冷却。”“我们看到,功率趋势正在增加,对液冷技术的需求正在迫使我们对平台、机架、电源和数据中心设计的所有元素进行不同的思考。”
在博客发表后不久,Meta取消了两个荷兰数据中心,并宣布将重新设计位于阿拉巴马州亨茨维尔的第三个数据中心,该公司将其称为“人工智能战略投资”。
数据中心冷却的演进
传统的数据中心冷却方法通常依赖于大型制冷设备,这些设备耗能巨大,导致高昂的运营成本。其次,这些设备需要占用大量物理空间,从而限制了数据中心内部服务器和存储设备的部署密度,增加了建设和运营成本。此外,高密度计算设备的普及导致了过热问题,传统冷却系统则难以有效地处理这一挑战。同时,它们还会对环境造成负面影响,如碳排放和水资源消耗,不符合可持续性原则。
空气辅助液体冷却成为焦点
Meta等大公司正在投资的关键技术之一是空气辅助液体冷却。
与多年来在HPE Cray、Atos和联想超级计算机中看到的全液冷基础设施不同。该技术大量使用后门热交换器(RDHx),以减少支持热运行芯片所需的全设施基础设施投资。
RDHx真的很简单,相当于一个机架大小的散热器和一些大风扇。该技术因其灵活性而受到很多青睐,这使得它可以部署在支持机架级液体冷却所需管道的设施中。
在Meta的案例中,该公司将RDHx视为一种更有效地消除系统热量的方法。据了解,该实施涉及直接液冷(DLC)服务器,该服务器通过管道连接到机架内储液器和泵,推动加热的冷却剂通过RDHx,系统中的热量在RDHx中排出到热通道。
在这种配置中,RDHx的功能很像游戏PC中的定制水冷回路,但它不是冷却一个系统,而是冷却整个机架。
RDHx也可用于空气冷却。在这种配置下,冷设施水通过RDHx泵送。当热空气从空气冷却系统的后部排出时,热量被散热器吸收。Meta去年10月发表了一篇关于该技术可行性的完整论文。
这种方法的最大好处之一,特别是对于托管服务器而言,是它不要求客户在准备好之前就接受DLC,并且对于他们支持液体冷却行业中不会相互冲突。
随着技术的不断发展,我们可以期待新型冷却技术的涌现,如量子冷却等。这些技术将进一步降低能源消耗,提高可持续性。
在人工智能的时代下,数据中心建设和冷却技术的演进正共同塑造着数字化世界的未来。人工智能时代不仅催生了数据中心建设方面的创新和改变,也对数据中心冷却技术提出了挑战,这两者相辅相成,不断演进,以满足巨大的计算需求和可持续性标准。