随着金融科技发展的不断变革,金融行业的网络整体规划和建设思路也在不断追赶新时代银行业务的发展需要。网络规模的不断扩大,网络应用技术的不断提升,都对大型银行网络的日常运维提出了更多的挑战。跟紧银行业数字化转型以及金融科技一体化运维大潮,网络运维(NetOps)正在着力于引入最新的统一化、规范化、自动化运维技术,用于更好的保障金融科技系统的稳定运行。
银行作为对IT系统高可用性要求极高的金融机构,对网络架构的可用性、可靠性等方面提出了更多的挑战。大型金融网络运维,涉及到资产管理、容量管理、性能管理、变更管理、应急保障等多方面的管理需求,都占用了大量的运维资源和人力成本。如何让运维人员将有限的精力专注于更有意义及挑战性的工作中,是网络运维自动化一贯坚持的思路和方向。作为网络自动化建设的实践者,我们在摸索中不断前进,从以下几个方面的进行了实践。
化繁为简,构建统一的网络资产数据池
在网络资产的管理方面,开展网络资产的数据标准化工作,以统一的数据标准实现对整体网络资产的管理。其目标是实现对整体网络资产的梳理和调用,避免出现资产信息在不同运维系统中数据的差异,造成网络运维过程中信息不一致、数据不统一等问题。
针对网络设备资产,开展统一的设备监控管理成熟度模型建设,针对不同功能类型、部署区域、使用场景的网络设备,按照运行监控、网络连通、服务管理三个维度计算其管理成熟度评分及监控定级,最终实现设备的标准化监控配置和全生命周期的资产数据管理。解决了网络设备在日常运维过程中出现“脱管”或“半脱管”的问题,并提升了不同网络运维系统对网络设备资产的数据交互及监控管理需求。对于网络线路资产,采取统一的线路资产数据标准化管理,实现线路资产与设备、应用信息的关联互通,提升在网络运维过程中相关信息传递的一致性及准确性。对于配置及参数资产,采取智能化分布式的配置参数采集及管理机制,在保证网络配置及参数的数据安全性同时,又实现了网络配置动态对比及关联分析的功能,提升了以“静”制“动”的运维监控能力。
针对网络逻辑资产,开展统一的网络CMDB信息采集及更新机制。通过对不同类型的网络设备进行适配,采取SNMP,命令行登陆,接口登陆等方式,获取相关网络设备的数据信息,将相关信息通过统一的规则进行关联,实现对整体银行网络内IP、ARP、MAC接口数据,访问控制信息,应用系统信息,网络地址及性能容量、设备资产配置容量、机房布线容量信息的大集中,实现了对整体网络资产情况的一手掌握。
破釜沉舟,打造网络变更的“人工+智能”
银行网络的特点就是安全运维颗粒度及精细度程度高。在最小化严格化控制架构下,运维过程中网络人员将面对每日数以百计的网络变更及调整,相关的变更从正常的变更投产、测试开发到最普遍的用户域访问控制,都需要投入大量的人力进行变更内容的评审和准备。在安全合规的前提下,将运维人员从整体的变更流程及变更内容的准备中解脱出来,是变更自动化急需实现的目标。
在变更流程的优化方面,我们尝试打破跨系统间的技术壁垒,润滑整合流程平台与运维平台之间的信息传递机制,将变更整体的申请、审核、分配、实施、复核的全周期流程进行串联,结合变更内容与网络资产数据的关联分析,实现变更内容的自动化解析和数据生成。运维人员在一个页面中可以完成整体变更流程的流转,以及变更内容的智能分析及脚本自动化生成工作。对于涉及重要生产网络区域的标准变更内容,通过自动化的方式实现对变更脚本的生成,运维人员仅需对自动化脚本进行审核,并通过相关的合规审计渠道进行变更内容的下发即可完成变更实施工作。对于开发测试、用户接入等非生产网络区域的变更,可通过自动化变更审核后即实施下发的方式实现,既提高了网络变更流转的效率,也降低的网络运维人员重复性工作的强度。此外,为了满足多活多中心应用系统架构部署的网络访问需求,我们完善了跨数据中心的网络变更一体化流程实现,通过系统CMDB智能判断,系统开发及运维人员无需知道对应地址的所属数据中心区域,即可实现一次申请,多地开通的网络变更自动化,提升了整体网络自服务的能力和水平。
在变更的合规审计方面,通过实现对整体变更数据的标准化解析和智能化分析,在日常的运维过程中可快速回溯相关变更内容及数据,以及对应网络设备策略的命中情况,提高运维人员的问题分析和定位排障效率,加速整体事件处理的效率和效力,为网络安全生产保驾护航。
拥抱多元,提升网络运维监管控思路
随着网络规模及架构技术复杂度不断提升,传统的网络监控模式已无法满足海量的日志处理及高并发的设备数据采集需求。在事件分析及定位方面,快速交付运维人员相关的设备告警日志、性能数据趋势、历史关联信息,以及实现网络告警信息与其他专业条线告警信息的关联整合,是新时代网络运维的里程碑。
在信息的采集方面,拥抱业界开源的运维监控手段,一方面实现了分布网络设备信息的高频采集,通过结合主流的网络运维监控算法,形成智能的网络监控定义,实现了对整体网络架构及设备运行状态的实时信息采集及感知。此外,利用主流高并发流处理技术,实现对海量网络设备日志的智能解析及关联分析,提升了整体网络监控的处理及分析能力。另一方面,加强旁路监控的运维辅助能力,通过使用多点部署全流量采集探针的方式,形成整个网络通信线路的多段网络流量分析链,帮助运维人员从多个维度实现对相应告警的智能分析,解决传统运维监控中关联数据缺失,辅助排障信息不足的问题。
在监控的监控展示方面,通过使用统一的运维监控平台,实现了多运维条线的CMDB数据上收及整合,解决了一键获取告警及关联数据信息,跨运维部门间监控告警关联分析,应用信息与网络数据对接等问题。
在运维监控的辅助方面,结合实际的网络运维场景,实现了网络状态比对、历史数据分析、快速配置及参数对比、一键问题设备隔离等操作运维场景的自动化落地,帮助运维人员在监控中更快的实现问题的定位及处置。此外,面对疫情及其他极端运维情况,我们尝试性的开展了现场运维监控+移动运维辅助+远程运维支撑的运维管理模式,在遇到复杂问题时,通过群策群力的方式,帮助相关值班人员迅速进行问题的分析和定位,并协助其进行整体的故障排除及处置。
紧跟时代,提升智能网络自服务能力
随着网络技术的不断演进,数据中心级SDN技术及广域网SRv6技术已逐步在银行网络架构中落地。在不断提升网络自身的健壮性及技术能力的同时,实现网络新技术与其他系统及应用技术的融合,是新的智能网络管理的机遇和挑战。
在基础服务交付方面,数据中心层面实现新SDN架构的落地既实现了对整体网络资源的整合及虚拟化支撑,也实现了对大型银行网络架构下传统系统及云平台的平滑支撑。在广域网络上,通过实现了更先进的分段路由(Segment Routing)能力,从技术上达成了基于应用系统层面的网络通信及灾备保障,进一步提升了总、分行之间的网络传输调度及应急能力。在应用系统支撑方面,进一步实现网络对应用开发的友好性。跳出网络看网络,即站在应用系统的视角来提升网络对应用支撑的能力,通过网络的智能化服务能力,帮助应用系统在日常运行过程中发现可能存在的问题,最大化的规避系统运行中可能存在的不稳定因素,提升网络网络智能自服务能力。此外,在不断完善网络自己的运维体系建设的同时,我们已经开展了基于应用的网络流量智能调度,基于流量的应用交易关联分析,重要网络服务的分布式网络资源分配和监控,网络安全全自动智能封禁,网络运维的集中API平台等方面的建设,并正在尝试开展系统网络的一体化运维提升建设,实现用网络而不见网络,真正做到用网络服务的“大象无形”。
每一代网络有每一代网络的长征路,当今的网络运维思维已随着日新月异的IT技术而不断更新迭代。大型银行作为IT技术的“重度依赖”机构,早已站在了金融科技转型的风口浪尖。在保障网络基础架构稳定性的关键性能指标的同时,通过网络运维自动化提升整体网络团队的能力,通过网络资源的虚拟化实现网络更大的灵活性和扩展性,通过“自我革命”实现网络底层对业务应用系统的服务输出,是当前网络运维面临的新问题和新挑战。网络运维现在的本职工作,不仅仅是要提升网络的自动化运维能力,更需要提升网络对业务及应用系统的持续交付水平,争做银行数字化转型的领头羊、排头兵。