数据中心在现代企业运营的业务中仍然至关重要,因此企业需要识别和降低数据中心运营风险的方法。
随着云计算的兴起,一些IT传道者、首席信息官和大型技术研究公司在5年前预言数据中心即将消亡。行业专家Mark Settle当时提出建议,企业关闭内部部署数据中心需要深思熟虑,并预测数据中心的业务将随着数据量的增长而继续增长。
如今,数据中心不仅继续存在,而且在与混合云和多云的市场竞争中蓬勃发展。不仅如此,数据中心还可以满足与边缘计算、物联网和5G等新兴技术相关的服务需求。
由于这些新的应用程序以及终端用户计算(EUC)和移动解决方案中的新兴需求,数据中心的运营变得越来越复杂,导致出现更多的内部和外部风险。停机是一种持续性风险,每次停机事件的平均损失高达每分钟11000美元。
以下是企业识别和降低数据中心运营风险的三个步骤。
1.采用综合方法进行风险管理
2021年2月,德克萨斯州遭遇的冬季风暴以及随后导致的大面积停电,对该州的数据中心来说是一次严峻的考验。虽然没有发生大规模故障,但电气故障切换系统存在重大问题。
从功能的角度来看,数据中心是运行业务关键型应用程序的物理设施;而从业务的角度来看,它们是需要进行预算和管理的不动产或资本资产。
关键是,单点故障可能(而且经常会)导致数据中心的运营中断,从而导致收入损失。这就是需要一个适用于整个企业的普遍风险管理计划和政策的原因。
这也是综合风险管理(IRM)发挥重要作用的地方。调研机构Gartner公司将综合风险管理(IRM)定义为“由风险意识文化和支持技术支持的一组实践和流程,通过对企业如何管理其独特风险的综合视图来改进决策制定和性能。”
在后疫情时代,实施远程工作、BYOD、CYOD和其他工作场所实践变革的企业正在将其数字化转型战略与IT基础设施升级相结合,以识别和缓解自然灾害、供应链、数据处理以及商业模式所固有的风险。
如果企业正在实施数字化转型,则需要监控可能影响数据中心的每个流程和因素(外部或内部),并准备好应对由一个或多个事件同时发生的多重风险。
数字化转型不仅适用于严重依赖数据或技术的企业——它同样适用于疫情之后开展远程工作的中小企业,包括那些开始使用公有云替代数据中心的企业。
甚至政府部门也在认真对待数字化转型——利用云计算技术改造数据中心基础设施是他们的两个中心目标之一(改善在线用户体验是另一个目标)。
Jeff Shupack说:“数据中心优化是《美国联邦信息技术收购改革法案》中记分卡的一个关键衡量指标。该衡量指标部分反映了政府机构基础设施利用云计算的程度。”Jeff Shupack是一名数字化转型专家,在通过精益敏捷实施降低全球资本计划风险方面具有15年的实践经验。
很多企业正在认识到,敏捷方法、大数据分析、移动解决方案和DevOps与可靠的、升级的数据中心协同工作,可以有效地预防风险、充分地应对风险和快速地恢复灾难。因此,他们正在转向能够在混合IT基础设施中实施这些最佳实践的框架,以确保业务连续性、减少运营成本,并改善数字客户体验。
2.了解风险
无论企业的风险管理计划多么全面,其发展速度永远不会超过技术进步。新技术和新的工作方式正在创造前所未有的复杂性。以下是数据中心面临的不同类型的风险。
(1)IT安全性不足
可以说,如今数据中心面临的最大风险是网络安全漏洞,从DoS攻击、社交工程到数据盗窃,都有可能发生。2021年,每个数据泄露事件造成的平均损失为424万美元,这是17年来最高的记录。
应用程序和系统故障也会对物理安全方面产生影响,导致身份无法验证、网络连接中断、授权人员无法进入特定区域等情况。
(2)系统故障
没有弹性架构以及没有连续的、冗余的、高带宽的网络连接,数据中心的运营注定要失败。服务器、网络设备和相关设备都需要集群、镜像和复制等功能,以减少停机的机会。
应用程序或软件(如管理程序)有时会发生故障,导致服务器或网络瘫痪。因此需要确保所有应用程序在混合基础设施上无缝工作,并与云原生应用程序进行对话。
(3)电源故障
尽管这种情况极其罕见,但电力故障确实会发生——主要是自然灾害带来的后果。需要为数据中心的所有机架和冷却系统配备UPS电源或备用发电机路。数据中心与多个变电站的直接连接有助于防止受到本地变电站停电的影响。
(4)漏水
洪水或渗水可能会给数据中心带来灾难。然而,维护良好的管路和排水系统对消防控制和冷却系统至关重要。
(5)噪音
数据中心面临的一个鲜为人知但却十分严重的风险是长期暴露在高频噪音中,这会降低存储系统的效率,降低读/写性能,并最终影响数据完整性。数据中心应该建在远离运动场、消防站、机场等地方,并部署在使用声学抑制技术的建筑物内。
(6)火灾
电源尖峰和电气短路是数据中心火灾的常见原因。如果不迅速控制,火灾可以在几分钟内摧毁数据中心IT硬件。具有讽刺意味的是,空调和冷却系统将会消散火灾产生的烟雾,使火灾早期探测变得更加困难。因此需要使用带有光电传感器的烟雾探测系统,以持续监测数据中心的空气中是否有烟雾。
(7)糟糕的灾难恢复规划
虽然数据备份目前是一个非常简单的过程,但出于安全性和性能的综合考虑,数据中心比公有云更受欢迎——希望在系统故障时能够立即恢复事务性数据。
当然,这取决于业务的性质和监管框架等因素。所以更有理由为每个不同的故障事件制定明确的恢复计划;计算、存储或网络资源也是如此。
大多数先进的灾难恢复计划都有监控系统,可以跟踪影响数据中心的风险因素,并在超过关键阈值时发出警报。
3.在管理风险之前评估风险
所有的风险并不都是相同的。虽然数据中心面临着各种风险,特别是不同的垂直领域,但最终使用的风险缓解技术不一定需要针对数据中心环境进行定制。
因此,数据中心运营商需要制定风险管理计划,列出数据中心可能面临的所有风险,并指定对每种风险事件的响应。
首先进行风险审计——对所有拥有和运营的数据中心设施进行全面评估。评估影响设施设计、IT基础设施和运营流程的因素。
如果过去发生过重大事故或中断,那么可以进行根本原因分析来解决没有解决的问题。可以做些什么来确保在类似的情况下不会再次出现停机。
此外,如果使用具有多个数据中心和云计算系统的混合架构,需要单独审核每个数据中心以及它们之间的数据路径和连接。
如果在金融和医疗保健等监管严格的行业中运营,则需要将定期数据中心风险评估和灾难测试作为日常运营的一部分。
与其他事项一样,需要创建框架、政策或备忘单提供适用于数据中心运营商的风险类别、每个类别影响的系统、估算损坏和恢复成本,以及发生事故或灾难时应遵循协议的现成参考。
例如,IT咨询机构凯捷公司采用了一种不断发展的风险管理方法,该方法识别并量化风险及其缓解成本。凯捷公司高级交付中心经理Kevin Read表示:“我们已经建立了一个月度风险管理系统,记录所有风险和问题,并制定行动计划。如果需要更改,将提供投资预算。”
如何消除停机时间
数据中心(甚至是企业的整个IT基础设施)永远不会孤立地运行,数据中心大量组件正在全天候运转。
IT基础设施的风险缓解是一个共同的责任,而不仅仅是首席信息官或首席技术官的责任。企业需要有足够数量的受过培训的IT人员,他们愿意尽一切可能掌握数据中心的运营。
Tenable公司产品营销副总裁Gavin Millard给大家的建议是:“冲突的目标可能很难解决,最有效的方法之一是建立一个高效的流程,持续识别风险所在。还需要一个可预测、可靠的方法来更新系统,而不会影响企业的总体业务目标。”