锐捷网络RIIL新一代智能运维平台

RIIL综合业务运维管理平台建设目的意在构造一体化、全流程、可视化的综合业务运维管理平台,通过这一管理平台,把机房动力环境监控、基础硬件设备监控等全部纳入到统一平台中进行监视和管理,建立全面的资源配置信息库和监视信息库,挖掘不同系统间的关联关系。

RIIL综合业务运维管理平台建设目的意在构造一体化、全流程、可视化的综合业务运维管理平台,通过这一管理平台,把机房动力环境监控、基础硬件设备监控等全部纳入到统一平台中进行监视和管理,建立全面的资源配置信息库和监视信息库,挖掘不同系统间的关联关系。通过运维管理平台进行深入的故障相关性分析,及时有效地提供综合统计分析报表,提升现有的运行管理水平,从目前的被动应对转变成主动监视、主动管理,有效地提升运维人员的工作效率,提高关键应用的可用性,减少处理故障时间,预防问题发生,为业务正常开展提供有力保障。

运维团队核心关键目标是,保障各类业务的持续稳定运行。为了达成这样的目标,客户往往会部署四项核心关键的工作来支撑,分别是:风险预防管理(我们熟悉的巡检)、监控与告警管理(每个客户都会采购或自研监控系统来确保发现问题)、故障和问题的处理(快速的定位和解决问题)以及应急响应与演练(减少重复和灾难性的问题带来的危害),以此来减少或降低故障的发生次数,及时处理掉已发生的故障,并尽可能降低对业务的影响。

但是,随着信息化大量建设、以及数字化转型,运维团队面临着巨大的挑战:

1、大量优先网络、无线网络、虚拟化网络的大范围建设:云、虚拟化带来的IT基础资源规模化、爆发式的增长,且呈现出敏捷迁移、动态变化的现象,导致运维人员从以前上百台设备的管理到现在几千台设备的管理,同时,资源从稳态向动态的变化导致监控盲区增加,IT资源的状态、故障无法及时快速感知。

2、大量业务系统的建设:以前基本上都是单机应用,如前些年的SOA(面向服务架构,多系统集成调用),而这些年则以微服务化为主,这种变迁导致应用系统架构复杂度极具增加,结合IT资源的动态性,运维团队对于复杂业务系统的故障排查变得异常困难,未来,整个变化还会延续。

3、数字化转型使得IT业务系统对企业或组织的经营起到了关键的支撑价值,从前整合运维的压力更关注设备稳定运,而现在必须要考虑用户体验,因为IT的核心价值就是支撑业务用户。但当前运维团队并没有特好的手段来感知用户体验,进而优化用户体验,导致当下用户的体验不可控,抱怨日益增加。

RIIL新一代智能运维平台,我们希望帮助用户构建“先见先行”的运维数据洞察能力。

1、通过多源运维数据的接入,将各类运维数据实现统一纳管,无论是IT资源的原始指标数据、模拟用户的拨测数据,还是第三方系统的监控数据、自动化脚本的执行数据等,均能实现全量的统一存储。

2、所有的数据之间都是有关系的,以业务系统为例,会有依赖支撑关系,以网络为例,会有网络连接关系等,因此通过对这些数据间的复杂关系自动感知与发现,形成运维的知识图谱(比如我们的城市地图,所有的公路之间都是有链接的,我们用高德地图首先看到的是一张连通的关系网)。

3、无论是用户发起对业务系统的访问,还是用户间的数据交换,核心就是找到一条最优的网络路径从A点到B点,类似我们在高德中从北京翠微大厦要去天安门,可能有三条路,高德会自动计算一条最优的路径(网络也是如此),所以通过对于数据转发的真实路径洞察,就可以帮助运维快速准确地识别到端到端的数据转发路径,来支撑到故障的定界、定位。

最后,这条路径上,到底哪些节点不通了,哪些节点变慢了,我们通过指标体系的方式、帮助运维快速定位到具体的节点,从而实现故障的深度分析和定位(类似我们看到高德中,哪些地点交通管制了,哪些地点出车祸了,哪些地方塞车了等等)。

结合对于多元数据的统一接入,对于运维图谱的构建以及真实数据路径的洞察和指标评价体系的构建,帮助运维讲分散的数据转化为具备高消费价值的信息与知识,来支撑运维故障隐患的“先见”、处置防范的”先行“。

THEEND

最新评论

更多
暂无评论