数据中心数字孪生技术应用探讨

黄冬梅、杨超
2020年初突如其来的新冠肺炎疫情使人们的生活、学习和工作越来越依赖网络,如网上购物、网上买菜、网络教学和居家办公,数字经济基石的数据中心作为新基础设施而得到重视。

导 读

本文介绍了数字孪生的概念及其在数据中心行业的应用,论述了数字孪生在数据中心设计和运维阶段的应用情况,分析了数字孪生在数据中心节能中与AI算法的结合达到节能目的的案例。并对数字孪生技术在数据中心行业未来的发展方向进行了探讨。

前言

2020年初突如其来的新冠肺炎疫情使人们的生活、学习和工作越来越依赖网络,如网上购物、网上买菜、网络教学和居家办公,数字经济基石的数据中心作为新基础设施而得到重视。

由于人员不能正常到岗,数据中心的运维安全正面临着风险,因此越来越多的数据中心业主开始着手向数字化、智能化运维发展,以降低人员对数据中心运维风险的影响。德勤管理咨询公司(Deloitte Insight)发布的《2020技术趋势报告》中提到了的数字孪生(Digital Twin)技术,被誉为2020年的技术趋势,意味着这项技术在2020年将有新的发展或应用。

数据中心设计阶段的数字孪生

数据中心设计阶段的数字孪生技术主要表现为3D建模和仿真,通过CAD软件、BIM软件、CFD软件等工具实现设计阶段的数字孪生模型。这个阶段采用数字孪生技术能够在虚拟环境中验证不同场景下设计方案的适应性、合理性,能够提高设计效率,优化设计方案。设计阶段采用数字孪生模型付出的成本和代价最低,而获益最大。

目前设计阶段的数字孪生技术及应用已相当成熟及广泛。图1以示例说明,设计阶段通常会以CAD或BIM模型来查看不同的布局方案,评估模型是否有干涉等,以CFD模型分析不同方案之间气流组织分布以及机柜温度分布情况如图2,从而为选择最佳设计方案提供依据。这也是数字孪生技术的核心。设计阶段的数字孪生模型就像是孕育的胎儿,这个阶段的模型与下一阶段建设和运维是密不可分的。

通常设计阶段除了分析布局以外,也尝试一些空调或电力失效方案,以保障整个系统在设计上没有缺陷,并为可能发生的场景进行了提前布局。值得一提的是,设计阶段的数字孪生模型如果能够交付给运维阶段的人员延续使用,这将大大提高模型的使用效率,并使其生命周期的孪生更加完整。

数据中心运维阶段的数字孪生

数据中心运维阶段相当于从婴儿呱呱坠地至其终老,以数字孪生技术可以实时观察其变化,预测其发展,从而为其健康运营保驾护航。运维阶段与IT部署的变化、环境的变化、设备的老化等诸多因素有关,其健康安全运营并不是一件易事。

数据中心行业本身也是处于快速发展的阶段,这意味着有很多先进但未必成熟的新兴技术或得以应用,因此新技术本身的验证对于数字孪生来讲也是机遇和挑战。

该阶段数字孪生技术不仅仅用到了3D仿真技术,还要涉及物联网(IoT)技术、人工智能(AI)技术和数据分析技术。不同技术的应用程度将产生不同的价值,以下将从IT变更应用、容量管理和节能三个方面介绍数字孪生技术的应用和前景。

1.IT变更管理

IT变更是运维工作中每天可能发生的事件,目前很多数据中心在进行IT设备变更的时候仍是比较盲目,往往根据经验进行,而数字孪生模型将可以终结盲目。表1给出了数字孪生技术的IT变更应用流程。

3D仿真技术将以真实IT部署进行建模,以保证数字孪生模型与现实物理模型一致。除了在外形尺寸上一致,数字孪生模型更重要的是与物理现实内在的运行数据一致。因此需要对运行数据进行采集和分析,从而为下一步行动决策提供依据。

IT变更是数字孪生技术在运维阶段最基本的应用,看上去并不复杂,但它可以让运维人员进行的变更不再盲目,也避免了潜在风险。图3是实际数据中心的数字模型,所有的IT设备型号、位置及运行状态都与实际数据中心完全一致。状态数据可通过传感器进行实时交互。

2.容量管理

数据中心的容量是商业运营最关心的指标之一。据市场统计,数据中心的平均容量利用率为70%,也就是说如果建设了一个容量为10MW的数据中心,实际上只部署了7MW的设备,还有3MW无法利用。如果按每kW建设成本3万元人民币计算,这个数据中心建设成本就损失了9000万元。那么数字孪生技术是否可以帮助减少容量损失呢?答案是肯定的。

首先要进行的分析是这3MW的容量没有被利用的原因。通过构建的3D可视化模型,分析可以发现,数据中心实际IT设备的部署往往与设计阶段有较大差别。以一个机柜为例,设计时按照完全一样的IT设备满负荷部署,但实际上是由不同类型、不同规格、不同性能的IT设备组成,设备运行产生的热量不是均匀分布的,这就有可能造成局部热点。如果有设备高温报警,担心IT设备进风温度过高,此机柜不再添加设备,因此它的利用率通常不高于70%。

数据中心的容量利用率取决于其空间、承重、电力、冷却和气流等五个利用率,而通常在数据缺乏的情况下,不能确定到底短板在哪里,而数字孪生模型可以通过分析明确短板所在。

图4是某数据中心数字孪生模型提供的信息,图4(a)可以看出气流已经达到80%利用率,而电力为60%,而当气流达到100%时,电力为80%,这样就意味着电力20%的损失。而通过数字孪生模型优化以后,图4(b)所示气流浪费减少,实际气流利用率下降,于是该数据中心就有了40%的容量可以布局IT设备。

3.节能运行的应用

数据中心的节能运行是近些年的热点,各种节能设备和技术应运而生。比如间接蒸发冷却AHU、液冷都是目前节能效率较高的技术,也有较多应用案例。而人工智能(AI)、机器学习(MachineLearning)等技术也正在被广泛研究和应用。

谷歌数据中心2017年就将机器学习的技术应用到其数据中心节能运行中,截至2018年通过对大量运行数据的机器学习和使用,数据中心节能达30%。数字孪生技术能够帮助充分利用其CFD仿真模拟的优势,并与AI技术结合达到数据中心节能运行的目的。机器学习的方法很多,这里讨论两种常用方法,监督学习和强化学习。

①数字孪生技术与监督学习结合

谷歌采用的机器学习即是监督学习的方法,该方法需要大量的运行数据样本用于训练。样本数据量越大,机器学习模型越准确。针对不同数据中心,可以设置同的输入变量和输出变量。输入变量通常包括:表征系统实时负载的变量,表征冷却系统运行的控制变量以及表征环境的变量,如:IT设备发热功耗,冷机供回水温度、流量、空调送回风温度、风量、大气温湿度等值。

输出变量可设定为PUE值最低,约束为IT设备进风温度不超过27℃或者其它温度。通过大量的运行样本数据,监督学习的方法可以在输入量和输出量之间建立相应的数学模型,然后可以根据输出变量目标值和约束条件,最优化获得最佳的控制变量数值,从而达到节能目标。

现有的数据中心,虽然有大量的基础设施运行数据,但是由于并未提前有计划的部署传感器和控制器,导致监控的变量缺失或变化范围小等原因,机器学习获得的数学模型并不足以表征输出变量的主要影响因素,最终导致无法获得最优化的PUE值。因此我们可以借助CFD数字孪生模型(90%以上相似度)来模拟不同的运行工况,从而补充大量的运行数据,并提供给AI算法,这将大大提升AI模型的泛化水平。CFD数字孪生模型与实际运行数据也可以有90%以上的相似度,是可信的。下面以一个案例简单说明:

如图5所示,数据中心147平方米,采用高架地板下送风,部署机柜44台,单机柜负载4.5kW,部署空调4台,每台冷量60kW,风量320立方米/分。目标为空调末端能耗最低,即空调风量最少,控制变量为空调风机转速最低,同时约束IT机柜进风温度不超过24℃。基于这个条件,我们建立数字孪生模型且在相应的位置安装传感器。通过CFD仿真模型,模拟获得需要的运行数据样本,机器学习的步骤如图6所示。

本项目监督学习中通过DOE设计工况得到空调转速组合(图7),再通过CFD数字孪生模型计算得到数据样本,然后通过高斯回归的算法,得到预测结果,再回到数字孪生模型上进行验证。

如图8所示,图8(a)为优化之前空调全部转速均为100%,图8(b)为优化之后空调转速下降了23.5%,全年可节能50%。

②数字孪生与强化学习结合

监督学习方法的优点是计算速度快,缺点是需要大量样本数据。而强化学习刚无需样本数据,但缺点是计算较慢。强化学习的方法也很多,本案例采用了Q-Learning的方法。目标:空调的最小风量。约束:IT设备进风温度小于27℃。

图9为数字孪生模型,其面积为36m2,采用地板下送风,空调一台,冷量60kW,风量216立方米/分,机柜6台,每台8kW。

强化学习的思路是根据风机运行的当前状态确定下一步动作,状态为风机转速输出0%~100%,动作为转速上升、不动作、下降,每次调整1%,同时转速调整还要满足IT设备进风温度低于27℃的条件,转速上升、不动作、下降的区间分别为大于等于27℃;小于27℃大于等于26℃;小于26℃三种情况。

强化学习最后直接输出最优的风机转速,并且实际反应在数字孪生模型中。当做出正确预测方向则给予奖励,当做出错误预测,如机柜进风温度超过27℃,则给予惩罚。如此循环直至结束。

表2为强化学习的Q表,第1列风机转速输出,第2-4列为Q值,Q值大的地方为优化后的转速,从表2中可以看出空调风机最优转速输出在60%~63%之间。

表2中在风机转速61%时Q值在不动作时最大,所以这个值为最优解。

未来趋势

事实上数字孪生技术在数据中心的应用还有很多,未来随时技术的发展和成熟会有更多方面的应用。不仅仅包括数据中心运行维护,安防、网络安全、财务等都可能与数字孪生模型上互相交叉获取数据并进行分析,使数据中心运行在最安全、最绿色的状态,使企业运行在最简单、最盈利的状态。

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论