如今,在超大型数据中心运营商(如亚马逊公司)认为市场无法提供或自己建设数据中心成本更低的时候,就会考虑采用自己的基础设施技术进行建设。
亚马逊公司内部应用的一项技术成为了规避该公司的一位顶级基础设施工程师所描述的开关电器供应商产品设计方式的优先事项。
电气开关柜
正是这个问题可能导致去年夏天的美国达美航空公司数据中心停机,最终导致达美航空公司1.5亿美元的损失。此外,2013年美国橄榄球联盟的年度冠军赛“超级碗”的停电事故也让人深思。亚马逊网络服务副总裁兼杰出工程师JohnHamilton在其职业生涯中管理的数据中心遇到了这种失败。
他在个人博客的一篇文章中写道:“我曾在更大的数据中心工作,并在工作中亲自经历过两次停电事故。”Hamilton在加入亚马逊公司之前,曾经在微软公司大约工作了十年时间。
Hamilton并没有在他的博客文章中引用达美航空公司的案例,但去年夏天只有这家航空公司数据中心发生中断故障,该航空公司后来公布了上亿美元的损失。
亚马逊公司设计的避免这种电力中断的技术是固件,它决定了当数据中心的电力中断时,电气开关应该进行的处置措施。Hamilton表示,传统的供应商固件优先考虑防止损坏昂贵的备用发电机,从而避免完全的数据中心中断故障。亚马逊公司(也许大多数其他大型数据中心运营商)都倾向于宁愿面对上百万美元设备的损失风险,而不愿面临大范围的应用程序的中断风险。
当电力设施停电(大多数时候都是这种情况)发生时,通常开关柜设备等待几秒钟再进行动作,以等待电力立即恢复(这是最常见的情况),如果没有恢复,开关柜将会动作启动发电机,而数据中心的IT设备将会采用UPS供电系统的后备电源。一旦发电机运行稳定,就会成为IT系统的主要电力来源。
去年美国达美航空公司数据中心停电归因于开关柜“锁定”了亚特兰大航空公司的发电机,没有及时进行切换。而这个功能是数据中心或供电设备中的大多数开关柜感测到市电异常而设计的,而如果开关切换,现场的柴油发电机有可能如果接入短路电流,就会发生短路事故,因此开关柜将发电机的开关锁定以避免事故发生。
在大多数情况下这种事故将发生在建筑物之外,因此这个方案除了造成数据中心中断之外,不会对其他设施造成损失。Hamilton表示,数据中心内部短路,断路器断开,服务器切换到备用电源,或者如果配电系统中的故障较高或断路器未能打开,发电机未锁定时可能会损坏发电机。而这种情况极少发生。
“我宁愿承担发电机的损坏风险,也不能让IT负荷中断。”他说,“如果客户因此可能会损失上亿美元,那么保护柴油发电机就不会成为优先事项。”
由于了解到潜在的设备故障,当亚马逊公司工程师要求他们的开关柜制造商从其固件中消除锁定设置时,开关柜供应商拒绝实行,因此亚马逊公司决定使用自己推出的固件。
Hamilton表示,“我很幸运能够为这么大规模的运营商工作,实施定制可以避免中断事件发生,即使发生发电机损坏这样罕见的故障,也仍然具有极好的经济意义。因此我们几年前就采用了这种特定的故障解决模式。”