一、银行数据中心运维的发展和演进
近年来,随着移动互联网、大数据、云计算、AI技术等金融科技业态逐步向传统金融领域渗透,银行业务系统越来越庞大,系统之间的关联越来越复杂,金融科技的不断发展一方面为传统银行业的跨越升级插上了腾飞的翅膀,另一方面也给数据中心运维带来了极大挑战。业务的高速增长始终离不开运维的强有力支撑,作为一名在银行数据中心系统运维体系从业十来年的IT工作者,历经了银行数据中心从部件级运维到一体化发展的各个阶段,数据中心的内涵也从单一数据存储场所向智慧运营不断演进。
(一)单一数据存储阶段
在单一数据存储阶段,数据中心的运维重点是服务器、存储和网络,主要承担的功能是数据存储和管理,集中存储了银行的业务数据。处于此阶段的数据中心功能比较单一,整体可用性低,业务连续性要求不高,仅仅便于数据的集中存放和管理,面向单套业务系统的存储和应用,运维管理粗放,资源台帐不清,运维人员时刻处于“火线”边缘。
(二)数据集成管理阶段
数据集成管理阶段是数据中心运维管理的转型阶段,此时数据中心组织专门的人员进行集中维护,注重运维效率,为业务系统提供有效支撑。有些做得比较好的数据中心已经开始集成CMDB,自动化集成ITSM流程,通过云服务实现自动化的服务交付,对系统维护上升到了管理的高度,从事中干预、事后处理慢慢过渡到事前预防。业务连续性要求较高,IT系统的可用性已经作为部门KPI列入年度考核,数据中心要求有较高的稳定性和可靠性。
(三)智慧运营阶段
处于智慧运营阶段的数据中心,从注重运维效率转变为更加注重运维质量,业务与科技深度融合,业务系统对数据中心的运维要求已不仅仅是支撑,而是提供安全、持续、稳定、有效的科技服务,此阶段的数据中心已经演进成了金融服务提供中心,服务流程趋于规范化、标准化、统一化,并通过信息技术实现自动化管理。数据中心集成、管理和维护了各种资源,从技术运维转向了技术运营,实现基础设施和服务实时交付,保证计算资源价值最大化。数据中心高可用性和业务连续性要求高,重要信息系统应用级灾备覆盖率达到100%,且具备有效的异地数据级灾备,灾备接管时间为分钟级。
二、城商行运维的痛点分析
中小型城商行受制于资产规模、科技投入、科技人才匮乏等因素,在科技人员配置和资金投入时一般都是重开发轻运维,运维管理粗放,这就不可避免地暴露了很多运维的问题和痛点。
(一)运维制度不规范
中小型城商行处于运维发展的初级阶段,运维制度、操作流程、应急预案、灾难恢复计划书等制度性文件制定之后就束之高阁,没有及时根据实际情况进行修订更新,使得运维工作无章可循,运维操作做不到规范化、标准化。运维制度不规范的数据中心,人人都有一套运维标准,同样的事情不同人处理都存在差异,各岗位职责边界界定不清,岗位之间协同性差,做事互相推诿,甚至怕担责任少做少错,紧急问题得不到有效处置,从而运维事故频发,带来极大的安全隐患。
(二)运维流程不合理
如果制度是“心脏”,那流程就是“血液”,它贯穿整个工作范畴,引导运维工作,界定具体的管理职责,运维流程的有效性和可操作性直接影响了运维质量和运维效率。数据中心需要制定切合自身的、实用的流程,缺乏有效流程管理的数据中心,故障响应时间慢,故障定界定位难,故障处理缺乏统一有序步调,问题跟踪方式自成一派。缺乏流程指引就摆脱不了“烟囱式”运维,或“救火式”运维,每位运维人员都是无头苍蝇一般的“救火队员”,增加了人为操作风险。
如今大多数中小型城商行的数据中心都部署了各类运维支撑工具或平台,比如ITSM、自动监控平台、堡垒机、日志管理平台、灾备切换平台等,但大多数运维场景下,这些工具平台各自为政,没有串联形成体系,相互之间缺乏有效的流程进行编排和管理,流程和工具的衔接存在断层,协同调用依赖人工进行,增加了运维投入但却没有简化运维。
(三)运维技术水平低
在实际操作层,技术是运维的骨骼,强硬的技术实力是运维体系的底座支撑。近年来,中小型城商行业务迅猛发展,基础设施快速膨胀增加了运维管理的复杂度,业务系统对IT基础设施提出了更高的运维服务要求。多设备、多厂家、多产品导致运维复杂度攀升,为达到高效运维,就必须利用技术手段为不同技术路线的系统环境提供统一的服务接口,整合事件处理、变更管理、服务请求、配置管理等多项流程,将流程和操作一体化,同时还需要熟悉多平台、多业务、多工具的复合型运维人才。
但现实情况是,中小型城商行在运维投入上捉襟见肘,大多数运维手段还停留在人工阶段,自动化运维平台没有充分发挥应有的效能,还需过多的人工干预;在人才聘用方面,低于行业平均水平的薪资无法留住高技能人才,人员管理不规范、晋升通道不清晰、行业地位低,造成运维人员变动大,维护人员技能较低。
(四)应急管理不高效
银行业务具有较高的实时性和稳定性要求,一些面向客户、涉及账务处理且时效性要求较高的业务处理类、渠道类和涉及客户风险等业务的管理类信息系统已长期处于严格的监管之下,若这些重要系统发生非计划内中断,高效的应急管理显得尤为重要。受限于自身原因,中小型城商行的应急管理体系建设还不够全面,没有形成自上而下的合力,产生了许多突出的问题。
1、风险防范意识不高
中小型城商行主要关注主营业务发展,普遍缺乏信息系统风险防范意识,从上到下对信息系统的应急管理都不够重视,容易滋生信息系统重大安全事件,严重威胁银行的正常生产经营,造成声誉风险。
2、灾备体系不清晰
应急管理的一个重要组成部分就是灾备管理,中小型城商行灾备建设的主要目的,是为了进行灾备演练从而应对监管检查,缺乏对灾备体系的统筹思考和总体架构设计,这将导致灾备系统架构不清晰,延展性差,灾备资源只能在演练时使用,正常生产时间段得不到合理利用。
3、系统应急预案不完善
应急预案可用性不强,是中小型城商行的通病。大多数应急预案流于形式,组织架构不清晰,职责分工不明确,可执行性不强;有些应急预案只专注与操作细节,缺乏总体规划和统筹安排;经过了数次真实环境下的应急演练之后,没有及时总结经验教训,同步更新应急预案。
三、城商行运维转型的思考和对策
鉴于以上痛点分析,中小型城商行要实现运维转型,必须要从根本上打破困局。首先从思想上统一认识,从管理层开始自上而下认可运维工作的重要性;然后制定并及时维护相关规章制度和操作流程,规范运维操作人员行为,降低操作风险;最后才是最近提得比较多的,利用技术手段建设集中整合运维平台,实现运行、监控、变更、应急等流程一体化、自动化、智能化,达到智慧运营的目的。具体的思考和对策如下:
(一)战略层面——管理层关注
大部分中小型城商行均没有配备专职CIO,信息科技部在银行高级管理层眼里仅仅是一个巨大的“成本中心”,不会产生实际效益,科技的重要性并没有渗透至管理层。随着银行业务的快速发展,信息科技风险以及由此带来的衍生风险并不亚于系统性金融风险,监管部门对银行信息科技的监管也日趋严格。若高级管理层可以从战略层面重视信息科技,将业务与科技深度融合,关注科技体制健康有序发展,科技赋能业务,组建训练有素的科技团队,就能有效规避各类生产运行风险,助力业务系统持续稳定运行。数据中心是业务系统的总后方,科技部领导也应重视数据中心运维管理,为数据中心运维提供动能和驱动力。
除了要重视运维,管理层也应该为数据中心运维提供切实可行的指导思想,主要表现在以下五个方面:一是标准化,要求完善制度制定和修订,一切工作按制度执行,有章可循,在操作上严格要求规范化、标准化。二是自动化,进一步提高监控、配置、作业调度等工具使用,提升运维自动化水平,降低人员操作失误率和风险。三是集约化,深入推进“大运行”,并统筹考虑数据中心运维一体化管理工作。四是自主化,加强人员培养和岗位技能考核,对关键系统、关键岗位逐步实现自主运维。五是精细化,在运维工作的各个方面,不断量化,力求用数字说话,加大量化考核力度。
(二)战术层面——做合规的事
以战略规划为指导思想,战术层面需做到数据中心即应用,在转型过程中逐步将数据中心运维流程合理合规化,实行运维的“全生命周期”管理,实现运维体系自身的价值。主要表现为:一是提质,数据中心制定服务化,标准化的运维流程,主动性预测预防,最小化的应用中断,减少系统故障率,提升业务系统的用户体验度。二是增收,构建应用差异化计费体系,体现运维体系管道能力,加快商业变现增加收益。三是增效,通过自动化设计提升运维效率、集约化设计提升数据中心整体资源利用率和复用率,增加CPU算力负载和网络负载效率。四是降本,机器不是来取代人,而是将宝贵的人力成本投入到高价值领域,通过自主化运维提升人员素质,加速人才转型,降低综合成本。
(三)实操层面——正确地做事
运维过程中出现的问题中,人为操作问题和流程设计问题各占40%,技术问题占20%。因此,在实操层面,如何正确地做事,需要从运维人员、运维流程和运维技术三方面进行讨论。
1、运维人员
运维人员包括行内运维人员和运维外包人员,人员组织架构是核心,并且不断动态调整。从依赖厂商到自主可控,从标准化到脚本化,从半自动化到自动化,不管如何调整,最终方向都是要培养自己的运维力量,做到自主运维。具体需要做到分工明确、权责分明、及时响应。运维人员要有责任,有担当,提高自身技术能力,不过分依赖外包,不惹事,也不怕事。
2、运维流程
首先,运维工作中的每一个步骤都要有流程、有审批、可监控、可追溯,与工作相关的流程和规定,一定要经常地,反复地修订、调整,牢记于心;其次,充分利用流程,理清岗位职责的边界,完善标准化流程,对部门能提供的变更能力做严格的梳理;最后,一定要严格遵守流程,流程正确+结果正确才是正确,流程错误+结果正确仍然是错误,是态度问题;流程正确+结果错误是可以原谅的,最多算能力问题。要建立流程来应对“没有流程”的场景,并且严格遵守。
3、运维技术
运维技术就是运维工具,是各个厂家最热衷于讨论的主题,正如笔者前面所提,运维技术稍逊于运维人员和运维流程,在运维管理中处于比较重要的地位。良好的技术手段可以集成现有的分散流程,使得人员工作更加高效、更易于培训和控制,还可以减少手工重复性操作的成本,提升对操作的控制性。
各厂家五花八门的运维技术归结到一点,就是通过统一管理实现数据中心工具(技术)、流程和制度间创新性融合,构建统一的运维管理技术平台,完成设备选型、规划、上架、故障处置、变更、调优、回收全生命周期管理,从人防到技防,从粗放式运维到精细化运维。
四、小结
综上所述笔者认为,中小型城商行要实现运维转型,为各业务系统提供强有力的基础支撑,首先要成立统一运维组织,制定统一运维组织架构和调度体系,实现运维团队统一、有序;其次制定统一的运维制度和流程,确定运维操作安全可控;再次是搭建统一运维管理技术平台,对接其他管理工具,实现数据中心全生命周期管理;最后就能形成统一的对外服务水平,面向业务部门交付合格的“科技服务产品”,保证科技服务质量,达到科技赋能业务发展的最终目标。