本文来自微信公众号“twt企业IT社区”。
信创技术在企业得到越来越广泛的应用,并逐步融入现有企业的IT基础架构当中,不断冲击和更新现有运维体系。信创运维体系相较于传统的运维体系,在运维技术和团队、运维监控、运维基线、容灾备份以及应急处置等方面有哪些突出的变化和风险?又应当如何从容应对这些变化?这逐渐成为企业在更多关键应用创新和自主可控落地时的决策参考之一。
本期为大家带来《迈向YB数据时代》2022年冬季刊“精细运营”栏目中的议题一:
信创环境下,如何利用存储连接技术来满足业务的新要求?
【栏目主编】邓毓江西农信运维技术经理:本议题由某农商银行架构师胡海光、某金融科技公司资深集成工程师孙伟光、某国有大型银行资深架构师Bryan针对议题下的关键点发表主张,几位专家的主张在某金融机构架构师李威、秦皇岛银行信息科技部总经理王登峰及我本人等多位专家的复议后,形成了一定的共识,供同行参考。
胡海光某农商银行架构师:
在信创大趋势到来之时,只有打造完善的信创标准运维体系、优化运维管理工具、提升信创技术积累、制定信创运维应急处置方案,才能从容应对信创变革,保障企业数字化的顺利转型和业务的稳定运行。
随着我国信息技术产业的快速发展,信息技术创新能力大幅提升,产业结构优化升级取得实质进展,呈现出整体产业由弱向强转变的趋势,当前已经具备信创应用推广和发展基础。同时作为数字“新基建”的重要组成部分,伴随国产化、信创化趋势浪潮的不断推进,信创技术和方案逐渐发展成熟和实践落地,推动着整体产业朝数字化转型和国产自主可控的方向稳步前行,越来越成为经济社会发展的核心驱动力。
对于信创方案落地的实现方式而言,不是简单和盲目的国产化替换,也不是对国外产品和架构的粗暴否定,而是在不牺牲性能和稳定的前提下,伴随信创技术的成熟和积累,有目的、有计划的逐步逐次实现有效尝试和替换。
对于信息系统而言,业务的连续性和运行的稳定性关系着信息系统服务质量的好坏,而连续性和稳定性则是需要靠运维来支撑和保障,因此一套良好且适合的运维体系则是信息系统运行的方向指引和保障基础。而信创信息系统的运维体系相比传统的运维体系,就本质和内在而言存在着一定的区别,本文就信创运维体系给运维带来的变化进行简要说明。
以办公管理系统应用信创改造为例,该系统信创目标为实现办公管理系统在服务器、操作系统、数据库、中间件、OA系统、电子签章等软件、终端的全栈式国产化建设。在满足国产化要求的基础上实现办公管理系统新建和历史数据的迁移,最终完成该系统的全栈信创改造。而改造的落地方式分为可行性分析、选型、技术验证、方案设计、应用适配改造及测试、试点运行、项目迁移等几个阶段。
1)可行性分析:即对系统进行信创技术分析,编写信创实施方案,确认项目计划;
2)选型:与市场主流的信创芯片服务器、操作系统、软件、终端等厂商进行交流、初步确认候选范围;
3)技术验证:实现应用适配改造论证、验证测试,并确认信创产品选用方案;
4)方案设计:即完成项目整体的方案设计并进行评审;
5)应用适配改造及测试:即对应用进行适配开发改造、验证测试等工作;
6)试点运行:将开发及测试完成的应用在信创环境上进行试点运行及试点跟踪;
7)项目迁移:待试点运行成熟后,将该应用切换为双轨运行并总结项目经验,完成项目验收。
该系统的部署架构图如图1所示。
图1:应用信创改造部署架构图
由于该系统是全栈的信创改造,涉及到国芯服务器和交换机、国产存储设备、操作系统、中间件、数据库和安全软件等,产品种类较多,范围较广,运维难度较大。因此对于信创应用的运维来说,如何建立一套适合的运维体系关系着信创应用运行的好坏和运维的后续保障。相比于传统的运维体系而言,虽然在框架和方法上可以完全参照,但在具体运维方面上仍存在着一定的区别,如果完全复制传统运维体系,则存在着无效管理、处置速度慢、运维体系缺失等问题。基于此现就信创应用运维体系的相应变化进行简要说明。
1)运维技术和团队方面
因信创改造涉及到各类软硬件的国产化替代,部分产品还未在国内大规模普及,运维人员对于以上软硬件产品及相应技术的技能储备有限,对产品、技术特性了解不够充分,对国内自主产品体系尚未完全适应。而相比传统运维所用的技术已比较成熟,运维团队人员配备也较充足,运维人员技术掌握度也较高;
2)运维监控方面
传统运维对相应应用的监控指标和维度已日趋稳定,相应的监控和处置体系也较成熟,而信创应用运维监控体系仍在起步和发展阶段,需随着信创产品特性不断完善,以及在应用持续运行过程中持续调整和优化;
3)运维基线方面
相比于传统运维在运维基线方面比较成熟和明确,信创运维基线仍处在起步阶段,相应的操作系统和软件等还未明确相应的基线;
4)容灾备份方面
目前传统应用在容灾和备份方面采用的产品和解决方案大都为国外产品,如HADR、SRM及NBU等,产品功能强大且运行稳定,而全栈信创在容灾备份方面需同国产容灾备份产品进行相应的适配和验证;
5)应急处置方面
传统应用在应急处置方面,处置方案及文档齐全且进行多次的演练和验证,在应急处置方面较为成熟,而对于信创应用而言应急处置方案有些尚未体系化,演练缺失,缺乏有效的应急处置经验。
当然这是由于信创产业在当前特殊背景下产生的一定问题,就信创运维体系而言还存在着如下风险:
1)技术风险
当前整个信创环境如操作系统、CPU等硬件、数据库、中间件等既相互协作又相互影响和制约,而当前信创处于一个快速发展阶段,因此在实际环境中就形成了一个个相对独立的孤岛,硬件不同、操作系统版本不同、应用软件千差万别,这就对技术路线选型提出了很高的要求,既要向前兼容也需要向后兼容,否则产品的实施成本和维护成本就会急剧增大;
2)运维风险
国产化产品多为各厂商自研或基于开源平台封装,同时各产品还未在国内大规模普及,因此对产品的熟悉程度还存在欠缺,对专业技术人员的培养还存在差距。因此当系统或产品发故障时,能否进行故障的快速定位、处理,能否对业务进行快速恢复,减少业务损失成为一大风险点;
3)开源风险
信创产品生态非常庞大,能够完全不依赖第三方开源代码的公司非常少,为了提高运维效率,大量使用第三方开源代码,无形之中给整个信创生态体系埋下隐患,一是违反开源协议产生侵权行为,面临巨额罚款或者是停止侵权行为;二是有很多开源软件具有故意留下的后门,存在巨大的安全漏洞而造成敏感信息的泄露或者是被操纵。
结合信创应用以上存在的变化及风险,就信创应用带来的运维变化而言,我们应对的方案如下:
1)建立信创运维体系。结合ITSS和ITIL的要求,建立标准的信创应用运维管理体系,形成完善的运维管理制度,同时结合国产化产品的特性,形成专有的运维管理体系,以保障信创相关应用的稳定运行;
2)提升信创技术能力。针对目前信创应用技术能力缺乏的现状,就信创相关技术开展相应的交流、培训、认证等多种形式的活动,提升人员的技术能力;
3)完善人才配备和培养机制。加强各类引入技术的相关学习和培训,在各类系统实施信创改造时确保做好知识转移,也可通过同业调研、交流学习的方式,来提升自身人员的专业水准;
4)制定全面的应急方案。针对系统硬件故障及系统软件缺陷等风险制订全面的应急预案。并根据项目重要程度合理规划应急预案演练的形式、数量和规模,提前安排人员和团队进行演练,保障项目实施的有序可控。
本文以办公管理系统信创应用改造的过程为例,结合信创运维体系存在的差异和风险进行综合分析,虽然信创运维体系在目前仍有不足和缺失,但信创的趋势已是大势所趋,随着国家“十四五”数字化的推进,信创产业发展必将持续深化,行业拓展也将不断加速。而信创运维体系的建立,是信创产业持续发展和加速推进的坚实保障,因此对信创运维体系的带来的变革值得我们深入研究和探索。在信创大趋势到来之时,只有打造信创标准运维体系、优化运维管理工具、提升信创技术积累、制定信创运维应急处置方案,才能从容应对信创变革,保障企业数字化的顺利转型和业务的稳定运行。
孙伟光某金融科技公司资深集成工程师:
随着信创的发展,迫切需要一个统一的IT运维系统,能为各应用系统、各种硬件基础设施等提供一个综合的运维管理平台,实现集中的、实时的、可视化的、智能化的业务运行监控管理和服务流程平台,以便即时了解IT系统整体运行状况,及时发现存在的隐患、风险以及瓶颈所在,从而做出快速响应,确保各项业务的持续稳定运作。实现日常运维管理工作的标准化、规范化、流程化和制度化,全面提升整体运维管理水平。
信创是“信息技术应用创新”的简称,其产业主要包括新一代信息技术下的云计算、软件(操作系统、中间件、数据库、各类应用软件)、硬件(GPU/CPU、主机、各类终端)、安全(网络安全)等领域,涵盖了从IT底层基础软硬件到上层应用软件的全产业链的安全可控、自主创新等重要领域。
进入数字化时代以来,企业正在不断加大软硬件投入,以强化自身的数字化能力。而在信创政策驱动需求下,企业一般采用全栈信创的方案完成新建或改造系统IT基础环境的建设,从而衍生出了信创背景下的IT基础架构运维需求。目前软硬件原厂商为企业提供一定的基础运维,从企业运营角度看,并不能满足其自身的业务稳定性需要,所以提升运维能力是数字化时代企业进行转型和发展必然需求。
金融业作为当前IT建设和应用的标杆行业,其IT运维水平和能力也是最高的,在行业监管政策要求下,信创应用不断落地,如果沿用传统架构运维思路和产品将难以满足信创应用对运维迫切需求。
一、信创架构下典型的运维方案设计
为确保信息化应用的可用性和连续性,构建以信息安全保障和系统运行保障为基础的规范化运维服务保障体系,建立运维管理机制,明确以事件管理、问题管理等环节为基础的运维服务流程。分析发生在生产运行环境的事件,确定最常发生或具有最大影响的事件,找出根本原因,通过预防性措施来防止事件的再次发生,保障系统、网络、业务运行的稳定性。
银行的IT系统包含有业务系统、管理系统、办公系统三类。目前,我司办公系统(OA、邮件)完成了信创改造。但由于产品及兼容性问题无法与现有的运维及监控管理平台对接,造成了现有信创系统采用手工方式监控管理,缺乏集中统一的主动式监控报警,故障预警能力差,不能全面反映系统运行的性能状况及提前发现系统的潜在隐患。
信创系统运维工作占用了较多的人力资源,由于缺乏有效的服务流程工具,需要较多的运维人员才能完成对关键信息系统的运行监控和维护操作,运维人员的数量会随着信息系统的增加而不断增加。要改变这种局面,需要梳理整个运维工作流程,建立一个服务流程平台,实现运行监控、系统维护和系统建设三个环节的人员分离,减少人力资源占用。同时,在故障管理、问题管理、配置管理流程控制方面虽有制度但缺乏相应刚性约束。
独立的运行态势分析,缺乏关联和整体性。由于信创应用系统独立运行、维护和管理,所以与传统系统的运行态势分析和审计也是相互独立的,不但各个系统会单独分析,即使同一系统中的每个网络设备,每个主机系统及每个数据库系统都要分别进行分析,缺乏集中统一的系统分析。同时在故障发生后,缺乏对故障进行跟踪记录分析以提供解决故障的准确依据。
通过对信创架构下运维需求分析,产品选型设计需要遵循如下原则和运维管理制度机制。
•开放性原则:遵循各类标准化协议与规范,通过丰富的适配器满足各种国产网络设备、服务器、存储设备、操作系统、数据库、中间件、业务应用系统等多样性需求。
•可扩展、易集成原则:能适应不断发展的业务需求。实现具备高度集成性,可以和第三方产品(其他系统监控软硬件互联或接入本系统进行监控提供接口)进行集成,进行功能扩展,方便统一管理。
•兼容性:持续跟进国产各品牌设备型号的升级适配,全面保障系统稳定可靠运行。实现一体化多级管控、集中告警、运维管理。
建立相应的运维管理应急机制:突发事件应急策略是对中断或严重影响业务的故障、宕机、数据丢失等进行快速响应和处理,在最短时间内恢复业务系统,将损失降到最低。在系统维护过程中,突发事件的出现是很难完全避免的,针对这种情况,我们设计了完善的突发事件应急策略:定期规范检查各硬件设备的运转情况和应用软件运行情况,同时根据现场环境,建立合理的数据备份和恢复方案,做好日常的数据增量备份和定期全备份,确保备份数据的完整性、有效性、正确性。当出现比较严重的故障,数据被破坏时,根据数据恢复方案,采取数据备份恢复的措施,保证数据的正确恢复。
二、信创架构和传统架构运维不同之处
1)信创整个生态还不够成熟,软硬件适配工作尤为重要,尤其是在产品自身运行维护上还是依赖厂商或者服务商在信创领域的经验,不同的产品组合需要有厂商的互认证或成熟部署案例来最大限度地消除适配存在的隐患;
2)信创项目的软硬件产品比传统IT项目中的软硬件产品在性能上还存在一定差距,需要尽可能根据实际工作需求配置性能最优的产品,提升最终用户的使用体验;
3)信创技术正在迅速发展之中,产品更新较快,要保证系统稳定、有序、持续地运行和升级,就必须严格控制产品版本。建议根据信创项目特点,建立版本控制体系,对于已适配的产品组合,严格控制其组件的版本。
总之,信创项目涉及的产品较多,集成复杂度高,在项目实施前应对项目风险点进行充分的评估,在人员、制度、技术以及资源等多方面不断改善和优化运维体系,保障运维工作的稳定有序,提高运维效率。
综上所述,随着信创的发展,迫切需要一个统一的IT运维系统能为各应用系统、各种硬件基础设施等提供一个综合的运维管理平台,实现集中的、实时的、可视化的、智能化的业务运行监控管理和服务流程平台,以便即时了解IT系统整体运行状况,及时发现存在的隐患、风险以及瓶颈所在,从而做出快速响应,确保各项业务的持续稳定运作。实现日常运维管理工作的标准化、规范化、流程化和制度化,全面提升整体运维管理水平。为此需要注意以下几个方面:
加强运维意识:树立运维团队的责任意识,风险意识。统一思想,提高运维职业素养,加强责任心,培养良好运维习惯,激励运维团队的主动性是首要任务。
预防为主:通过主动性运维工作减少事件发生概率,把大多数工作逐步纳入常规、计划性日常工作管理范畴,主要内容包括但不限于容量评估、性能分析、定期维护、例行重启、健康检查、备份策略、高可用评估加固、系统运行基线建立、问题管理、应急演练等工作。
及时发现:尽早及时发现系统异常现象,并及时通知报告到相关人员。主要工作内容是不断加强监控覆盖面,加强监控自动化手段,加强监控发现的有效性、及时性、正确性,持续改进。优化发现报告流程。
高效处置:提高事件处理能力,具备快速恢复生产服务能力。主要工作包括但不局限于建立优化事件处理流程、技术技能交流、知识积累经验共享、完善应急预案,提高决策质量效率、问题定位解决方法、事件解决手段,解决有效沟通和技术支持体系等。
合规操作:控制风险,有效避免、减少、控制操作风险、减少和规避各类人为事件。主要内容包括但不局限于日常安全操作要求、相关制度、规范;上线、变更、演练、验证相关的实施控制要求;运维人员安全风险意识的建立、培养;日常工作习惯要求;建立、贯彻操作、审批、实施流程等。
Bryan某国有大型银行资深架构师:
面临数字化转型和信创带来的运维挑战,企业应建立以用户为中心的理念,全面对标行业最高运维标准,聚焦平台能力沉淀,建设可感可知、可管可控、可计可析的运维能力,全面提升企业运维水平。
数字化转型大势所趋,各企业通过深化数字技术在生产、运营、管理和营销等环节的应用,实现企业的数字化、智能化发展,不断释放数字技术对经济发展的加速倍增作用。2021年信创工程进入2.0时代,金融、电力等国家关键信息基础设施行业正全面实施信创工程。企业业务重塑和基础设施的信创的同步推进,给IT运维带来巨大挑战。本文将结合多年经验浅析金融行业的信创运维体系建设。
一、业务方面
各家银行正在以客户为中心重塑业务。通过定义商业策略、管理、组织和流程等重新梳理业务,拆分重组业务要素,设计领域模型并抽象现实业务。这会带来大量业务系统建设升级。
二、技术方面
云计算、大数据、人工智能等新兴技术使用进入深水区,分布式架构应用日渐广泛,DevOps、AIOps等新研发运维模式扩大推广。业务和技术的改变均带来极大的运维挑战:
1)分布式架构加剧运维复杂性
分布式微服务架构的推广使得交易链条变长,系统和应用各环节间的依赖关系错综复杂,仅单一环节故障就可能拖垮多个系统。从主机下移到开放平台后,裸金属、虚拟机、容器等物理资源数量呈现指数级增长。这使得监控节点增多且复杂、参数配置繁多且易出错。
2)信创设施稳定性有待时间检验
从各种异构CPU到操作系统,再到各类中间件,信创设施正在从外围系统逐步推广到核心业务系统。但各类产品之间及其自身的兼容性和稳定性的生产运行时间较短,尚未经过高并发、大数据量等各种复杂业务场景的验证,组织级信心还有待提升。
3)系统业务连续性要求更高
应用架构变化和基础设施升级给系统业务连续性带来挑战,运维工作正处于能力提升和爬坡的关键阶段。外部监管部门的运维要求不降反升,提出了更高的RTO和RPO的业务连续性要求。
4)新技术能力体系建设尚需时间
运维平台建设和日常故障处置对人员技能的要求较高。云计算、大数据、人工智能等创新技术涵盖范围广、更迭速度快。建立全面合格的企业级人员技能储备还需要较长时间。
三、应对方案
面临数字化转型和信创带来的运维挑战,企业应建立以用户为中心的理念,全面对标行业最高运维标准,聚焦平台能力沉淀,建设可感可知、可管可控、可计可析的运维能力,全面提升企业运维水平。
1)优化完善企业运维制度和机制
传统运维时,操作系统、中间件和网络等部门职责明确,易于定位,但是,云时代的容器等平台模糊了系统和应用之间以及系统内部的边界。在定位问题时,部门间的配合方式和职责都发生较大变化,传统机制难以适应,需要企业调整组织架构,优化各团队的技术背景。在研发部门,建立基础设施团队,发挥熟悉研发的特长,加强对研发团队的基础设施技术支持;在运维部门,在新技术运维团队中扩充具有操作系统、网络等多种技术背景的人员,降低运维团队之间的沟通成本,甚至从研发部门引入经验丰富的研发人员,提升运维平台的研发水平,加快应用故障的定位速度。
梳理现有规章制度和流程机制,结合新技术特点进行调整。比如,金融行业流行的WAS、Weblogic等换成了PaaS平台的Tomcat等轻量级中间件,这需梳理各部门对YAML文件的配置规范和职责分工。研发部门需配合运维做好应用就绪和探活的配置,运维部门配合研发做好应用资源的估算和弹性扩缩容配置。在生产故障时,传统方式下的中间件团队确认其正常后,即由项目组自行排查相关故障,但现在,则需各团队有序配合全方面的故障点定位,在故障定位前各团队难以自证无惯性。
2)研发一体化运维管控平台
面临繁多的参数变更和冗长的交易链条等挑战,将各种繁重复杂的工作沉淀整合到一体化运维管控平台,聚焦监控告警、配置管理、变更应急、运维分析等领域的平台化建设。
面临开放平台几何级增长的软硬件资源,重点建设CMDB平台,形成统一的完整、全面、准确的资源视图。这有助于提升企业IT资产管理水平,有助于根据生产运行情况进行架构优化管控,如外部监管的数据统一报送、软件升级和漏洞防控等专项治理工作推进、研发运维的工作后评价、IT资产及关联关系管控等。
在监控告警方面,通过各类基础设施的管控平台实现全面的“点式”监控,通过全链路平台实现交易级的“线式”监控,通过IT资产平台实现应用间的“面式”监控。新型监控平台有助于事前建立视图、事中定位问题和事后预测分析。
在配置管理方面,结合业务系统的投产、变更和下线的生命周期,一方面建立各类投产变更流水线,避免出现参数配置的遗漏和错误,一方面通过历史版本的纵向对比和系统之间的横向对比,发现潜在的配置风险,生成优化建议。
在变更应急方面,在日常变更时,通过参数化脚本实现投产变更、应用验证和监控检查的常规操作,降低各类操作的难度,提升变更效率,减少出现风险。综合分析日常故障处置流程,对应用切换、服务启停、版本回退、故障隔离、限流等常规操作建立响应操作流水线,实现一键处置,最大限度降低故障的影响时间和范围。
在运维分析方面,研发智能运维分析平台,利用历史数据建立并优化各类AI运维模型,一方面预测系统容量需求并及时调整,一方面预测潜在故障并及时介入处置。
在容灾建设方面,建立两地三中心的常规化容灾演练机制,通过各类不定时切换演练发现运维短板和问题,确保发生生产故障时真正可切、可用。
3)加强研发过程管控标准
投产前,按“所测即所投”的方式完成性能压测,确保关键交易性能等指标可满足预期生产需求。通过自研混沌测试平台逐步积累各类系统级和应用级的故障场景案例,在控制爆炸半径前提下进行多种类、多场景的故障场景测试,不断提升基础设施的健壮性、应用系统的可靠性和监控的全面性。将运维平台接口规范沉淀到研发平台,在减少研发工作量的同时提升应用的可观测性、监控的标准化和规范化。
投产后,建立生产事件单台账,全面分析问题根本原因,形成对应用研发指导的反馈闭环。比如,MySQL因美国夏令时的时区配置错误导致业务中断一小时,研发部门修改数据库配置规范和研发指导,对存量应用系统完成规范治理,确保不会出现类似错误。
4)提升全员技能水平提升
在员工方面,在企业内部通过技术分享、专题培训等方式对员工进行分阶段、分类别的技能提升;强化个人专项技能的同时,不断扩充其技术视野。建立研发左移机制,让员工全程参与应用研发全过程,熟悉其技术架构;鼓励参加各类具有技术含量的官方认证考试,以考促练的形式逐步提升团队技能。
在企业方面,通过联合创新等方式,与合作企业针对企业的业务场景,不断迭代打磨产品,让员工在参与产品研发的过程中逐步提升对产品的认知水平和理解深度。
四、总结
由此可见,随着信创工程不断走入深水区,企业需要建立配套的组织和规章制度,加强一体化运维平台的建设和人员技能软实力的提升,在数字化转型过程中逐步建立打磨出一套适合企业自身特点的运维管理体系。
结束语
由此可见,随着信创工程不断走入深水区,企业需要建立配套的组织和规章制度,加强一体化运维平台的建设和人员技能软实力的提升,在数字化转型过程中逐步建立打磨出一套适合企业自身特点的运维管理体系。