本文来自IDC圈,作者/未然。
数据中心是数字经济的重要基础设施,随着人工智能的应用以及各行业数字化转型的加速,数据中心的需求和规模不断增长,根据科智咨询数据,2022年中国整体IDC业务市场规模达到3975.6亿元,同比增长32%;预计到2025年,中国整体IDC业务市场规模有望突破1万亿元。
然而,如此大规模的数据中心的运行也面临着各种挑战和风险,如极端天气、设备故障、人为操作失误等,都可能导致数据中心的性能下降、甚至停机宕机,给客户和用户带来巨大的损失。因此,数据中心的运维服务至关重要,需要专业的团队、科学的方法、创新的技术来保障数据中心的安全稳定运行。
极端天气是数据中心运维服务面临的最大挑战之一,如高温、台风、暴雨等。这些天气条件可能对数据中心的建筑物结构、设备系统、网络连接等造成不利影响,甚至引发灾难性后果。今年以来极端天气多发,例如深圳市9月就遭遇了今年首个红色暴雨预警,部分地区出现内涝积水。
普洛斯数据中心运维团队第一时间启动特大暴雨生产应急预案,组织人员、物资和设备,建立工作机制,宣贯应急预案,明确职责分工,梳理工作清单,并逐一落实。据普洛斯数据中心运维负责人介绍,在近20小时里,普洛斯深圳各数据中心开展各IT模块机房巡查累计162次,配电系统累计81次,柴发及制冷机组区域累计25次,楼顶及园区积水巡查及处理累计22次,并已向相关客户通报运营情况总计逾80次。运维团队还保持高度戒备,加强安全巡查和值班值守,为客户筑牢安全防护线。
台风前应急巡检及物资储备
高温、台风、暴雨,普洛斯如何化风险于无形?
极端天气和紧急情况下,更能凸显数据中心运营商的运维能力和服务水平。普洛斯数据中心作为一个跨地域、跨行业的数据中心运营商,拥有专业的运维团队和管理体系,为客户提供高效、安全、可靠的运维服务。
快速预警响应、应急演练规划
今年7月,4号台风“泰利”登陆华南地区,通常台风会伴随着暴雨。普洛斯数据中心应急保障组根据气象预警,立即启动了《台风暴雨应急预案》、《市电中断应急预案》等预案,用详细的保障计划指导工作安排,包括人员部署安排、应急通报流程、后勤物资保障、风险应对策略等。
普洛斯数据中心运维负责人介绍道,运维人员在极端天气到来之前,会对建筑物屋顶、外墙等部位的防水、给排水系统、电气及暖通系统、数据中心内部物理环境进行全量细致专项检查,如发现隐患会及时消除应对。
基于日常开展的防台风应急培训及组织应急演练,由专业工程师讲解台风对数据中心运行带来的影响及相应的应急措施,同时根据防台风应急预案,组织应急跑位演练,确保应急人员在面对台风带来的影响时可以及时采取有效的应急措施。
运维人员进行专项检查
完善风险管控机制
普洛斯数据中心参照ISO9001质量管理体系、ISO22301业务连续性管理体系、Uptime M&O等先进的国际管理标准、行业内应对极端天气的经验,并结合自身内部的经验登记册,制定了相对完善的风险管控机制。
普洛斯数据中心会对数据中心可能受到的风险影响进行分类,由高到低划分为四个预警等级,分别为:红色、橙色、黄色、蓝色。不同的预警等级对应不同的应急保障组和应急措施,以实现快速响应和有效处置。
在近几年中,普洛斯数据中心运维团队多次参与两会、冬奥会等重大活动和各大电商节的“重保”,并在2022年荣获某头部互联网客户的“优秀运维团队”奖项。目前,普洛斯数据中心运维团队人数超过300人,共管理逾50,000架的机柜规模,7x24h为全国客户提供运维保障服务。
科学选址、前瞻规划
普洛斯数据中心高效应对风险的前提,是其在项目选址阶段,除了综合考虑地理位置、电力供应、通讯基础设施等因素,严格依据相应的国家标准外,就特别关注地理位置的自然灾害风险,远离水灾、地震等自然灾害隐患区域。普洛斯数据中心各项目均参照百年历史最高水位线为基准,选址地势较高、排水良好,并远离行洪泄洪区域,同时在电力供应上做好多重保障,满足安全运行要求。
另外设计及建设阶段,在确保结构安全、机电系统可靠性等方面满足要求的同时,普洛斯数据中心的屋面、外立面等区域都按一级防水设计施工,得以更好地应对极端天气带来的挑战,确保数据的安全和业务的稳定性。
普洛斯多措并举,持续提升运维效率和质量
数据中心作为承载海量数据存储、分析的重要基础设施,其运维服务的质量和效率直接影响着客户的业务稳定和发展。普洛斯不仅注重运维服务的安全性和可靠性,也不断追求运维服务的创新性和智能化。普洛斯数据中心运维团队负责人总结了普洛斯提升运维效率和质量的“三大秘诀”:运维团队通过科技赋能、流程优化、专业队伍,为客户提供更加专业化、高效化、智慧化的运维服务。
自研智慧化运营管理系统,提升运维效率
普洛斯自研推出GLP DC BASE智慧化运营管理系统,采用了业内领先的中心化管控模式,满足大规模数据中心精细化、智能化运营管理的需求,打造高标准绿色算力基础设施。
该系统具有以下特点和优势:
引入AI算法和大数据处理能力,通过进行温度和气流组织优化,消除和降低数据中心的局部热点,降低PUE,保障设备的安全稳定运行,为绿色数据中心做出贡献。
建立各指标测点的运行基线,基于相对值的变化进行提前预警,相比传统的监控系统依赖于测点的上下限阈值进行绝对值的告警,动态基线可以更快地识别出故障风险与异动,有效地降低数据中心的风险。
GLP DC BASE集成多种运维工具和设备,实现运维的一站式管理,提高运维工作的自动化、智能化、数字化水平,减少人为干预和误操作,提升运维工作的准确性和稳定性。
GLP DC BASE智慧化运营管理系统
优化标准化流程,提升运维效率和质量
普洛斯数据中心运维团队在日常工作中,不断优化运维流程,提高运维效率和质量。该团队采用了以下方法:
制定标准化、规范化、精细化的运维流程,确保运维工作的有序进行,避免出现漏项、错项、多项等问题。
建立完善的运维管理体系,实现运维的可视化、可量化、可追溯、可改进,提高运维的透明度、可控性、可持续性。
引入先进的运维工具和设备,提高运维的自动化、智能化、数字化水平,减少人为干预和误操作,提升运维的准确性和稳定性。
智能运维机器人
打造创新型、专业化运维团队
一支拥有高度责任心和专业技能的人才队伍,是保证数据中心安全稳定运行的根本,也是为客户提供高品质服务的核心竞争力。普洛斯数据中心通过建立起基于岗位需求、符合客户需求的人才培训体系,打造高素质、创新型、专业化、以客户为导向的运维人员团队。
普洛斯数据中心旗下某数据中心项目建设年代较早,柴发控制系统只有一套PLC,如果停电时PLC故障,运维人员需要手动开机,耗时长,可能导致机房断电宕机。运维管理团队提出了创新性改造方案:安装一套强制继电器,一旦PLC故障,值守人员只需手动操控继电器即可启动柴油机组,操作时间不超过2分钟,有效避免了风险。
该方案施工难度和成本都很低,成本不过千元级别,对数据中心整体运营的影响最小,同时通过培训与演练,所有值守人员都能够顺利操作,减少了安全隐患,进一步提升了创新人才在运维中的作用,同时为数据中心的安全运营提供了保障。
(图为改造后的控制器机柜,值守人员可通过绿色按钮快速启动7台柴油发电机)
普洛斯数据中心运维一体化运营模式
普洛斯数据中心运维一体化运营模式是由运维专家组和属地人员共同构建的,结合了全国各地数据中心的特点和需求。该体系采用一体化管理模式,体现在以下几个方面:统一规划,整合资源,提高运维质量和效率;实时共享运维文档,实现运维内部信息的透明化,避免信息差造成的问题;全国范围内执行一套标准,减少协调沟通的成本,同时定期检查执行情况,保证运维的一致性和可持续性;协助属地运维经理统一管理,减少管理工作的差异化,提升管理水平和效果。
实现客户价值最大化
数据中心运维不仅可以为客户提供高效、安全、可靠的算力基础设施,满足客户业务发展的需求,还可以为客户提供绿色、低碳、节能的算力解决方案,助力客户实现可持续发展的目标。
实现降本增效
普洛斯数据中心通过优化机房设计、提高设备效率、采用可再生能源等方式,降低了数据中心的能耗和碳排放,从而为客户节省了运营成本。同时,普洛斯数据中心通过提供一站式的运维服务,减少了客户的管理复杂度和人力投入,从而为客户节省了人力成本。
提升业务稳定性
普洛斯数据中心通过建立完善的风险管控机制、应急预案、备份系统等方式,保障了数据中心的安全稳定运行,从而为客户提供了高可用性的算力服务。同时,普洛斯数据中心通过建立高效的运维管理体系、监控系统、服务流程等方式,保障了数据中心的高效运行,从而为客户提供了高性能的算力服务。
助力可持续发展目标
绿色低碳的运营模式,节能减碳,降低PUE,为客户推进环境和社会可持续发展目标奠定基础。普洛斯数据中心为行业树立一个智慧化、低碳化运营管理的标杆,推动行业技术创新和绿色发展。