金融企业基于业务可用性管理建立监控管理体系的实践与应用

钱立镓
金融企业在日益复杂的市场环境中,随着金融业务的快速发展,业务系统变得越来越复杂,对可用性的要求也越来越高。

本文来自微信公众号“twt企业IT社区”,作者/钱立镓,负责某城商银行监控系统管理和建设,具有丰富的监控系统建设、运维及项目管理经验。参与某城商银行统一监控平台、应用性能监控平台、自动化管理平台等多个运维管理平台架构设计及建设工作。对数据中心监控体系建设、自动化运维有深入研究和应用。

金融企业在日益复杂的市场环境中,随着金融业务的快速发展,业务系统变得越来越复杂,对可用性的要求也越来越高。一旦业务系统出现故障,可能导致严重的经济损失和声誉损害。因此,金融企业需要关注业务可用性管理,确保关键业务始终处于稳定、高效的状态。面临着业务可用性管理的挑战。在这一背景下,金融企业需要不断完善监控管理体系,以提高业务可用性,进一步降低风险。

业务可用性管理涉及多个方面,包括业务连续性规划、故障恢复、性能优化等。金融企业基于业务可用性管理的监控管理体系是确保业务稳定、高效运行的关键。通过实时监控、故障恢复和性能优化等手段,金融企业可以提高业务可用性,降低风险,为市场竞争提供有力支持。大数据及人工智能技术在监控领域的应用使银行系统的监控面临更为重要的机遇和挑战,银行服务主体对业务可用性要求不断提高,尤其需要不断优化现有监控平台及监控策略,需要形成监控标准化体系,因此,监控管理亟待更新监控管理办法,制定相适应的管控策略。本文基于金融企业业务可用性管理的监控管理体系现状,深入探讨监控管理体系的建设实践与应用,从监控系统、一体化运营管理平台、自动化控制三个方面展开分析,以期为银行监控管理的发展提供可供借鉴的发展思路。

一、银行监控管理的痛点和难点

从近几年的金融企业监控现状来看,监控系统面临的主要问题有:普遍存在不同监控平台监控策略待优化、告警事件、数据归集分散的问题。监控工具方面,监控工具展示的更多的是面向专家和技术人员使用的监控视图,对ECC一线整体监控可视化需求的实现不足。业务监控方面,自动化巡检及处置流程覆盖面积小,覆盖场景单一,缺乏有效的自动化开发管理流程。我们在现有问题的基础上积极探索解决方案,概括来讲,根据监控数据现实及服务需求制定了“监-管-控”一体化的闭环管理方案。

二、“监-管-控”监控管理体系优化策略

(一)监:基于业务系统可用性管理的监视指标体系

为了确保业务系统的稳定运行,企业需要建立一套完善的监视指标体系。基于业务系统可用性管理的监视指标体系主要包括以下几个方面:基础组件监控、应用系统监控、业务系统架构分布和详细故障定位信息。

一是基础组件监控方面,主要关注操作系、中间件、数据库及网络设备等基础软硬件运行情况和性能,以ITM和ZABBIX为基础监控信息采集核心,通过syslog和snmp等标准协议,将存储、网络设备、安全防护等专有设备的监控事件统一归集管理,利用Omnibus形成标准的监控告警事件,与短信平台、ITIL平台进行数据集成,形成标准的事件处理流程。

二是应用系统监控方面,主要关注响应时间、交易量及交易成功率等应用性能指标和应用系统运行情况,针对标准化日志和数据库交易流水表等交易信息进行实时监控,并通过大数据分析平台对应用日志进行统一采集、归档、展示分析;添加应用心跳监测日志,确保在不同交易特征时段都可实时掌握应用可用性数据,保障监控信息可靠、有效。

三是针对业务系统架构分布的情况,开发报警事件架构分布图,根据系统架构层级关系、告警事件及应用映射快速定位,并与自动化工具集成,形成联动,如存储IO故障,导致应用缓慢故障告警的根本原因定位,采取容灾切换规避等。

四是针对应用或业务场景故障,制作基于业务日志的实时故障分析展现视图,如ATM交易流水中,他代本报错,是全部他行报错,还是部分他行报错,处理的机制不同等。

五是提供针对告警事件、业务日志的AIops智能化分析功能,针对告警事件和日志异常进行告警提示,协助管理人员快速发现、定位故障。

通过业务系统架构分布图将各类告警信息进行串联和优先级定义,便于在多个系统和基础组件同时报警时,根据业务系统提供服务的层级关系和基础组件的归属关系对优先级高的故障节点进行优先处置。并针对大量告警事件将常见的和影响特别大的故障场景进行归纳总结,形成告警--确认--授权--自动处置的快速处置流程。比如某类三方交易经常发生拥堵导致故障传导到前端系统造成全局拥堵事件,对此首先针对该三方交易拥堵进行监控,当该告警产生后,与管理人员确认并通过授权,由值机人员启动应急处置流程,关闭该三方交易通道,避免造成前端系统和全局拥堵事件,减小异常影响范围。后续经由业务人员分析确认,该故障有第三方原因导致,关闭后对我方无影响后,将确认与授权过程进一步压缩,由监控告警直接触发自动化处置流程,关闭通道,值机人员仅对此操作进行确认和跟踪关注,极大的提高了故障处置效率,缩小了故障影响范围。

640 (1).png

图1:运维监控技术架构规划与功能定位

(二)管:基于业务连续性管理目标的一体化管控平台

一是通过一体化运维管理平台实现针对监控对象及其构成组件的自动化登记,以及各组件的监控策略部署控制,并与监控工具集成,实现实时控制。建立监控档案管理,确认监控对象的监控覆盖情况,随时补充监控策略需求。利用一体化管理平台熟悉应用系统监控告警策略情况,确认监控告警有效性。监控管理规划指标与策略对应关系,便于应用管理员与系统专家理解监控策略与指标分类。

二是形成监控对象—监控KPI—监控策略—监控实例化的监控档案管理体系,针对监控事件和监控策略进行编码,形成结构化的告警事件管理和策略管理。设置监控热度图,能够对数据中心重要的被管理对象进行统一监控展示;按照管理层、技术专家和ECC一线值班不同角色视角,建立属于不同角色的监控视图;热度图从左到右,从上到下展示被管理对象的业务影响关系,快速定位跟因事件;将二线技术专家的知识库,通过巡检流程,实时监控业务系统可用性,出现重要事件时,能第一时间手工获取业务系统可用性状态;将被管理对象数据标签化存储,为智能运维数据分析做技术准备。

三是与CMDB集成数据,并形成可由容灾管理平台调用的资产管理数据源,向各应用平台提供资产及监控策略管理数据。

四是持续优化监控策略与制度:根据监控实践反馈,不断优化监控策略与制度。这有助于提高监控工作的有效性,确保业务可用性得到持续改进。

640 (1).png

图2:监控对象与策略、工具的统一管理:监控管理与监控工具集成控制

(三)控:基于容错容灾应急处置场景的自动化控制工具

自动化控制可以从以下三个方面进行改造升级:

首先,针对各类报警事件及其相关场景,开发对应的巡检处置流程,整理常见故障和告警的判别场景手册,如,网银系统交易响应时间过长报警,配合中间件监控排查拥堵路径,定位拥堵路径后,关闭前端交易指示开关,重启应用进程,再打开前端交易指示开关,恢复交易路径正常运行,需工具实现固化,便于执行与管控。

其次,在现有流程的基础上开发标准化的容灾容错处置流程,形成标准化、自动化的容灾容错处置机制,开发自动化调度流程,针对多系统同时切换时的时序调度和逻辑关系进行线上化、自动化管理。

最后,一体化运维管理平台与自动化处置平台、容灾管理平台进行数据接口集成及调度任务集成功能,实现通过统一平台管理调度自动化任务,并将告警事件场景与对应的处置流程线上对接管理;同时能够针对巡检任务反馈数据展示巡检结果。

三、“监-管-控”监控管理体系的积极意义

“监-管-控”监控管理流程能够最大程度优化业务处理。

一是通过细分化的专业视图将抽象的应用系统逻辑关系、基础设施与业务系统的关联关系等可视化,在大量报警事件同时产生时,有利于直观的定位故障影响范围和报警事件优先级情况,帮助值机人员明确故障处置的优先级,提高关键故障的解决效率。

二是监控策略自动化同步并线上管理可以最大程度上的保证数据的一致性和准确性,做到监控策略与监控对象匹配的实时更新,在保障监控对象来源(CMDB)数据准确的前提下,管理人员可以快速定位监控策略盲点,通过分析监控覆盖情况,有针对性的补充监控策略。

三是我们通过不断的监控告警场景-自动化处置任务的开发积累,可以做到针对发生过的故障快速定位、快速处置,保障了应用系统的业务可用性,提升客户体验。

四是通过一体化运维平台整合数据接口,作为监控体系内的数据中台,提升监控体系的数据治理能力,提高整体数据中心的数据一致性和管理效率;并通过一体化运维平台将整个“监-管-控”的三部分串联起来,形成一个有机的整体,打通监控管理的数据通道,实现“监-管-控”这一闭环管理流程。

五是为了达到事件统一管理,海量的、格式化的监控运维事件可以作为AIops的数据源,进行针对AIops新技术的开发和探索,通过聚类算法等AI技术,对海量监控运维事件进行分析,有利于运维人员快速准确的发现、分析和定位问题。智能化监控将成为主流。随着人工智能、大数据和云计算等技术的发展,金融企业可以利用智能监控手段,实时收集和分析业务运行数据,预测潜在风险,并采取相应的措施进行防范。智能化监控不仅能提高企业对业务运行的把控能力,还能有效降低人力成本。

四、监控系统方案的未来发展趋势与展望

(一)由于监控对象和监控策略的线上化管理,监控对象的来源主要是配置管理数据库(CMDB),监控策略的来源主要是监控系统自身,所以在监控策略实例化(监控对象与监控策略进行匹配)的过程中可以对双方的数据源进行二次复核,提高配置管理数据库的数据准确性,同时也可以增强监控策略的覆盖率;但该项工作可能需要定期的通过人工确认和复核,需要有与之相匹配的管理流程和人员定期跟进。

(二)自动化处置流程的开发是一个场景与处置流程的积累过程,可以理解为运维监控体系的流程化知识库,将报警事件-场景-处置流程自动化的串联起来后,通过不断完善整个数据中心的故障处置知识库,将尽可能多的故障场景纳入到自动化可控流程中来,既可以节省数据中心的人力成本,也可以提高数据中心的故障处置效率。

(三)现在各厂商或开源软件提供的AIops工具有很多,但是在实施落地AIops项目的时候,数据源往往成为项目的瓶颈所在,具有数据源分散难于采集,数据源类型过于离散难于分析等问题,在完成一体化运维管理平台的建设后,相当于具备了监控体系数据中台的功能,将分散的数据集中于此,并进行初步的格式化和标签化,为后续作为AIops的数据源提供了环境基础。

(四)智能化监控将成为主流。随着人工智能、大数据和云计算等技术的发展,金融企业可以利用智能监控手段,实时收集和分析业务运行数据,预测潜在风险,并采取相应的措施进行防范。智能化监控不仅能提高企业对业务运行的把控能力,还能有效降低人力成本。

(五)一体化监控成为发展趋势。在过去,金融企业的监控体系分散在各个业务部门,导致信息孤岛现象严重。如今,企业开始推进一体化监控,将各个业务部门的监控数据进行整合,实现全局性的业务可用性管理。一体化监控有助于企业全面了解业务运行状况,提高决策效率。

(六)精细化监控成为重要发展方向。随着金融业务的细分,企业需要对各个业务环节进行精细化监控,以确保业务流程的顺畅。精细化监控要求企业对业务数据进行深入挖掘,找出潜在的风险点和优化空间,从而提高业务可用性。

(七)敏捷化监控逐渐受到关注。在金融市场竞争激烈的环境下,企业需要快速响应市场变化,调整业务策略。敏捷化监控可以帮助企业实时关注市场动态,迅速识别和解决业务运行中的问题,提高企业竞争力。

五、结语

金融企业在面对日新月异的业务环境和日益严峻的竞争压力时,基于业务可用性管理的监控体系建设显得尤为重要。本文从实际出发,论述了监控系统方案提出的背景、主要内容、优化策略、优势及未来发展趋势和展望。随着智能化、自动化的推进,我们认为“监-管-控”监控管理体系能够优化整体系统性管理,实现自动化运行,进一步提高运维效率,降低运维风险,从而形成管理上的良性循环。通过对监控体系的核心要素、关键环节和实施策略的深入剖析,为金融企业提供了一套切实可行的监控管理方法。

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论