2020年,一场突如其来的疫情在全球蔓延,国内新基建顺势全面启动,数据中心产业也意外的成为了大热门。作为数据中心从业者,一方面会感觉很自豪,能够将自身工作融入到这个伟大的数字化时代中,同时作为一个基础设施的建设和运维者,也深感责任重大,有如履薄冰的感觉。本文基于个人在数据中心建设和运维方面的经验,谈谈对于基础设施运维的一些理解和思考。本文所讲的基础设施对应的是数据机房风火水电这些传统的动力专业范畴。
01、运维工作的认识
对于事物的理解都是遵从由表及里由浅入深的,我们在数据中心基础设施运维方面也经历了这么一个阶段。六年前我所在的数据中心刚投产时,我们的基本想法是设备运行稳定,不出故障。那时候的运维工作也相对比较简单,首先安排外包值守做好巡视监控,同时按维护计划做一些运维工作,就这么愉快的做起了运维。
随着机房内重要应用系统的不断部署上线,同时基础设施规模不断扩大,设备在网运行时间增长,尤其是开始出现一些可能影响生产的故障,运维的压力就突增了。虽然大部分故障事后看是有惊无险,但毫无疑问需要去分析总结,这时就发现运维初期的想法太简单,存在着较大的潜在风险。
我们不禁要去思考如何有效减少故障,如何避免影响生产的故障的发生。为保持系统平稳运行,在数据中心基础设施运维工作中我们需要做些什么?又该如何去做呢?
02、运维工作的开展
我们开始有意识的去学习国家相关标准、行业相关规范、机房维护教程及行业知名公众号内容,也积极跟厂商和同业交流取经。在《数据中心基础设施运行维护标准GB/T51314-2018》中,将运维工作分为运行和维护两大部分。在国标基础上,我们结合实际情况和运维要求,把运维细分为监控值守、巡检、测试、保养、演练、培训、维修、整改、优化和应急处置等类型工作。在这些类别中,监控值守、巡检、测试、保养、演练和培训是基本维护工作,通常是按计划组织开展的;而维修、整改、应急处置及优化通常是在系统运行到了某种状况和程度时才会采取措施或组织实施的。下面先对基本运维部分做进一步的说明。
1.监控值守
监控值守对于数据中心运维而言,是最普遍最基础的一项工作。通常是有专人轮班,24小时查看监控系统是否有故障报警,同时有值班人员每隔几个小时去现场巡视,主要看是否有设备报警、部分重点设备运行参数是否正常、以及环境方面是否有漏水、异响和异物等异常情况。由于基础设施7*24运行,值班巡视能够覆盖到的是较少的时间,而且巡视效果还有赖于值班人员的技能水平和责任意识。所以监控值守的核心在于值班,值班的最主要职责就是及时发现报警并进行现场情况确认,然后按照报警内容及等级完成上报并配合开展处置。
2.巡检
巡检是计划内的一项基本维护工作。巡检一般由现场工程师或厂家工程师来完成,相比值班巡视会更加专业深入,能够对设备运行状况、运行数据、参数配置及告警记录等进行更全面的检查分析。专业巡检的目的是确认设备系统处于良好的运行状态,否则需要识别出运行中存在的风险并发起相应处理工作。
3.测试
测试同样是一项计划内工作,设备或系统在当前工况下能正常工作,并不能保证在别的工况仍能正常工作。为了保证各设备系统在不同情况下都能按照预期逻辑和效果运行,需要定期对电气、暖通、消防及弱电系统开展各种各样的测试工作,做到全面覆盖。运维团队通过测试能及时发现系统存在的潜在问题,并发起相应的处理工作。
比如,为防止市电停电对机房生产造成影响,我们需要做电气和制冷相关测试。在电气专业,首先要测试UPS能够从市电逆变模式正常转到电池供电模式,还要测试电池放电时间是否能满足设计或运行要求;另外也要测试备用发电机组的自启动功能及带载能力。在制冷专业,要测试水冷系统是否具有持续供冷能力,可以先关掉全部冷水机组由蓄冷罐进行放冷,再通过现场和动环监控去观察记录机房温度变化情况。
4.演练
演练是按计划针对各专业重大故障场景开展的应急操作测试工作,也是一项运维团队综合能力验证工作。演练时会设置各种故障场景,要求运行人员按照预定流程和预案开展应急处置,一方面能够检验设备系统性能,同时也是强化运行人员对于应急场景的理解和掌握程度。所以,演练的核心目的是让运行维护人员在遇到某种严重故障时能够严格按照预案从容有序的应对。那么,演练工作中应急预案场景设置的合理完备及对应处置方案的可靠有效是重要基础。
比如,我们经常会做市电油机切换带载演练,模拟市电出现故障,让油机给机房供电,过程中间操作人员会按照预先拟好的操作票先停一路市电、再停两路市电,并对应作出恢复供电的应急操作。我们也会定期开展消防演练,模拟火灾发生,检验消防报警系统、灭火系统和逃生系统是否能够正常反应,同时检验消防运行人员是否合理应对,及其他在场人员是否能够按照逃生要求快速离开。
5.保养
保养是为了使设备或系统保持良好状态按计划开展的一类维护工作。生活中最常见的是汽车保养,汽车需按照行驶里程或时间去专门服务机构更换机油、滤芯等耗材。数据中心基础设施保养涉及设备设施非常多,比如发电机组、冷水机组需要专业厂商定期更换润滑油和过滤器等耗材,空调及新风设备需定期更换过滤器,水泵和风机等需要定期加注润滑油,水系统里的机组、冷却塔和过滤器等需要定期清理去除水垢等。
6.培训
这里的培训是涵盖了运维技术学习提升、运维管理总结完善和知识库积累传承。基础设施运维专业性很强,需要通过持续的培养和训练使运维团队各岗位人员掌握应有的技能,以支持保障风火水电各专业系统稳定运行。从培训内容来说,基础设施一般分为电气、制冷、弱电和消防四大专业,每个专业里又有各种类型的设备和设施,所以要从系统架构、设备功能、操作要求、维护要点和应急处置等各方面去整理完整的培训知识体系。从培训对象来说,对于值班员、工程师和高级工程师需要根据各岗位职责要求进行有针对性的培训,比如值班员侧重监控查看及巡视等基础性工作、工程师需要具备较强的操作和维护能力、高级工程师需要深入理解专业系统并且从维护工作中不断总结完善运维知识和运行管理体系。
在明确了基础设施各类维护工作后,需要将每类工作再一步一步分解细化,直到形成每个具体事项的具体执行方案和维护标准。下图1是对各类维护工作做的第一级分解,再往下需要对每个事项形成具体的维护方案和要求,比如做某种设备巡检须明确检查点和检查要求、做某项测试须明确测试方案和相关注意事项等。
图1数据中心电气专业基础维护工作分解实例
03、运维工作之间的关系
前面对各类基础运维工作做了一些说明,那各项运维工作之间有什么样的关系呢?我们可以进一步分析,找到其内在联系。
1)监控值守能够及时发现监控报警和最明显的故障,这时会启动报警分析及应对处理,严重故障会转向应急处置以免影响业务连续性;
2)巡检、测试和演练能够发现设备老化、参数偏移、性能下降和功能失效等技术方面问题,会推进局部维修、系统优化或者隐患整改工作;
3)各项保养工作能够使设备或系统性能得以提升,恢复到良好的状态;
4)在监控巡视、巡检、测试和演练工作中,还能够发现人员能力、技术方案、管理要求和制度流程等方面的问题,需要有针对性去解决完善,并做好总结宣贯培训,做到吃一堑长一智,筑牢运维基础;
5)学习和培训是全方位的并要长期开展的,在技术能力、流程和制度各方面都需要培训需要规范,一支技术能力强且有制度流程保障的团队才能持续做好基础设施运维工作。
总结下来,我们可以建立下面图2所示的数据中心基础设施运维工作“金字塔”模型。在金字塔底部是监控值守、巡检、测试、演练和保养这些第三级的基础性工作,并且都是计划内的主动维护工作;在金字塔中间是维修、整改和优化这类及时性要求较高的第二级临时性处置工作;金字塔顶层是即将或已经产生了严重影响需要立即处理的第一级工作;金字塔外全部是培训,培训须贯穿于运维工作的各个层级各个方面,需要持续的开展并且不断更新,培训是全部维护工作有效落地的基础保障。
海恩法则指出:每一起严重事故的背后,必然有29起轻微事故和300起未遂先兆以及1000起事故隐患。那么对于运维来说,只要充分做好第三级各项基础性工作,把所有问题和隐患都消灭在萌芽阶段,这样就能明显降低三级工作升级到二级的概率,而且即使有故障其影响范围和程度也比较可控;当二级工作较少并得到及时有效处理的时候,发生一级故障须启动应急处置的概率也会大大降低;因为平时运维中已经做了充分的培训和演练,所以发生一级故障时也会得到快速稳妥的处置,这样运维安全就有了实实在在的保障。
图2数据中心基础设施运维工作“金字塔”模型
04、总结与展望
对于数据中心运维来说,人员管理及维护场景是非常复杂的,运维工作量是巨大的,制度化和规范化是基本保障,而灵活性会带来潜在的风险。对于基础设施运维来说,首先需要按照公司人员组织架构建立一支合适的运维团队。然后,各专业需要全面梳理系统运维需求,并结合现状制定详细的运维计划和执行标准。在运维工作中,严格按照计划和标准去操作,并在实践中不断完善作业计划和执行要求,这样团队运维能力和系统运维效果会持续提升,我们的“金字塔”就会愈加稳固。
展望未来,数据中心行业无疑会保持快速发展。在技术、人才和资本的助推下,数据中心基础设施这个传统行业也将会焕发出新的蓬勃生机。
1)建设规模上,在建和规划的大型和超大型数据中心越来越多。
2)建设方案上,因交付时间短、综合成本低、标准化程度高、分期建设方便,大型数据中心预制化和模块化建设趋势越来越明显。
3)技术选型方面,在满足可靠性标准的前提下,倾向于选择建设和运营成本更低的电气和制冷技术方案,选择更节能的产品。
4)运营成本上,从数据中心选址开始就希望最大化的利用自然冷源,同时不断降低损耗,追求更低的PUE。
5)运维手段上,将积极推进自动化和智能化。人工智能、大数据、物联网和新型传感器等新技术在基础设施方面已经开始并将会有越来越多的应用。比如,智能巡检机器人已经开始在数据中心替代部分人工巡检、通过人脸识别和算法技术提升数据中心物理环境安全管控水平、通过AI技术实现制冷系统能效提升、通过全面的监控数据分析实现预防性维护及通过物联网和新型传感器实现更加智能的监控系统等。
从数据中心基础设施运维来看,我们首先要脚踏实地的做好基础运维工作,将动力监控、巡检、测试、保养、演练和培训等基础工作落实到位,同时也要积极关注新技术新趋势,让基础设施及其维护体系能够不断更新成长,这样才能打造出一个持续健康的有生命力的数据中心。