本文来自微信公众号“科技云报到”。
在IT行业,运维人常常自我调侃“赚着5k的月薪,操着5千万的心,名下挂着5亿的资产”。
机房的暖通、网络、综合布线,系统的监控告警、故障响应等一大堆繁杂琐碎的工作,充斥着运维人的日常。
与开发和产品相比,运维更像是一个后勤角色,这一行业也长期处于公众视野的暗处。
随着云计算、大数据、人工智能等技术的兴起,运维行业也迎来了新的技术变革。
2016年,Gartner提出智能运维AIOps的概念,旨在使用大数据、机器学习等方法来提升运维能力,其目的是进一步降低自动化运维中人为干扰,最终实现运维无人化、自动化。Gartner预测,到2020年,AIOps的采用率将会达到50%。
六年过去了,AIOps技术发展得如何?
AIOps的实现思路
一种新的工作模式出现,必然会对原来稳定的工作模式进行改变,改变通常会受到新挑战,所以新工作模式需要能解决当前运维工作中遇到的难题而出现。
以金融行业的业务连续性管理为例,目标是提高公司的风险防范能力、有效地减少非计划的业务中断、防范运维操作风险,对于首次出现的未知异常能够利用工具量化分析并快速定位,确保在重大灾难性事件发生后能按计划恢复业务连续性。
在面对当前复杂的技术架构、不断引入的创新技术之下,传统运维团队原来被动救火式、问题驱动式的经验运维,已经很难实现业务连续性的保障目标。
金融企业运行安全稳定,需要运维数据赋予数据洞察、辅助决策、跟踪执行的能力,提升复杂环境下的运维管理能力。
例如:实时获得“发生了什么”?关联分析“为什么会发生”?智能预测“将会发生什么”?决策判断“采取什么措施”?自动执行“如何快速执行”?实时感知“工作执行的效果”?
AIOps就是为了解决上述问题而生,其价值在于通过机器学习来进行运维数据的挖掘,帮助人甚至代替人进行更有效和快速的决策,从而提升业务系统的SLA,减小故障处理的时间等,带来业务的价值,并最终实现真正意义上的无人值守运维。
如Gartner定义中提出,AIOps应用需要利用大数据,现代机器学习技术和其他高级分析技术,是一种相对较高门槛的工作模式。
为了更好地落地AIOps,运维组织需要深刻地理解AIOps的内涵,重点实现思路分为以下几个方面:
以数据为基础
数据为先,AIOps需要快速生产高质量数据的能力。
“快速”的思路可以以“中台”思路进行建设,建立统一的数据采控、实时与批量的数据处理能力、与运维相匹配的运维算法、存储方案、主数据、指标模型等;
“高质量”则从将分散数据统一、在线后形成“活数据”,以及数据质量上的治理。
从技术实现看,具备实时“采、存、算、管、用”的数据流动全生命周期管理的能力。
其中,数据采集是按需在线采集数据的能力;
数据存储是根据数据类型、数据应用特点对数据进行归档、整理、传输、共享;
数据计算包括数据标注、清洗、建模、加工、标准化、质量监控,以及为了获得数据洞察、决策、执行而对数据进行分析统计;
数据管理重点围绕数据治理,包括运维数据标准、主数据、元数据、数据质量、数据安全的管理;
数据使用重点围绕数据服务角度涉及的数据目录、服务门户,以及配套的数据服务化能力。
以算法为支撑
算法大脑,适配、引入特定场景下运维算法,构建算法模型体系。机器学习尤其是深度学习的大规模应用,推动了人工智能的快速发展。
随着国内TO B市场的火爆,AIOps上人工智能研究及应用正处于爆发期,引入AI技术的算法有三点优势:
一是工作稳定性高,人工智能可不知疲倦地进行工作,在规律性问题的分析时不受环境影响。
二是降低操作风险,利用人工智能取代传统人工经验操作,可更好地避免操作风险和道德风险。
三是有效提高决策效率,人工智能可以快速地对大数据进行筛选和分析,帮助人们更高效率地决策。
以场景为导向
场景驱动,以痛点、价值期望切入点,用智能赋能运维场景,落地智能运维能力。
AIOps从词来看,应该包括“AI+Ops”,是用AI赋能运维场景的模式。
有了上面提到的数据底座与算法大脑,下一步是AIOps运维模式的落地,主要将围绕场景的落地:一种是利用算法赋能已有的运维场景,另一种是算法实现原来无法实现的运维场景。
前者是一个快速见效的模式,后者是应对变化而做出的变化。
以知识为扩展
运维知识描述了大量运维领域的相关对象定义、技巧,以及排故/解决经验的信息。
通过构建运维知识图谱,利用自然语义等算法技术,从海量数据中自动挖掘各类运维主体,对其特性进行画像和结构化描述,动态记录运维主体之间的关联关系,可以帮助IT人员实现故障链传播分析、根因定位、智能的变更影响分析、故障预测等多种AIOps场景。
值得注意的是,软件的一些“算法逻辑”不代表真正的AIOps,判断是否是真正AIOps的关键点在于:是否能自动从数据学习中总结规律,并利用规律对当前的环境给予决策建议。
国内AIOps处于起步阶段
AIOps的概念非常美好,应用空间也相当广阔。除了互联网,在金融、物联网、医疗、通信、工业等领域,均表现出对智能运维的强烈需求。
数据显示,2020年中国IT智能运维市场规模为560.8亿元,年复合增速为20.1%,预计未来以15.9%复合增速扩张,2025年市场规模达1093.5亿元,表现出较大的市场潜力。
目前,我国政府部门也陆续出台《推动企业上云实施指南(2018-2020年)》《国家新一代人工智能标准体系建设指南》等一系列政策,推动智能运维领域的发展。
但必须承认的是,我国智能运维还处在起步阶段。
尽管国内运维行业在2016年前后迎来了一波融资热,但目前运维行业整体还比较落后。
一方面,技术有限,在线系统本身具有规模性和复杂性,是需要长期投入的研究领域;另一方面,智能运维需要高质量的标注数据,但运维数据积累明显不足,至少还需积累3-5年。
事实上,产品不落地、善于融资、估值虚高,是一些智能运维公司给业内人留下的印象。
目前国内大部分公司在技术层面的原创力都还不够强,很多都是利用国外的开源代码,有的公司甚至将几个开源产品拼凑在一起,内部之间仍是相互独立、割裂的,没有彼此打通,以至于最后的方案也不怎么好用,需要大量的人力运维支持。
因此,尽管随着技术的发展,运维行业已初步进入自动化、智能化初级阶段,但现阶段运维仍旧是一个“费人”的行业。
为了规范国内智能运维领域的发展,中国信息通信研究院发布了《智能化运维AIOps能力成熟度模型》系列标准。
在此内容基础上,由中国信通院牵头的国内外首个智能运维(AIOps)国际标准在国际电信联盟第十三研究组ITU-T SG13也已成功立项。
在《智能化运维AIOps能力成熟度模型》中,面向智能运维整体能力建设,规定了对IT系统或平台进行智能化运维的参考框架及分级评估方法,提出了关于企业建设智能化运维能力的实施路径,能够指导国内互联网和传统行业在智能运维方向的相关实践落地。
结语
“建立一个可供数百万人每天使用,但只需一名兼职人员管理和维护的系统。”这是吉姆·格雷(Jim Gray)在1999年获得图灵奖时对无故障服务器系统的畅想。如今,随着AIOps的开发,我们比以往任何时候都更接近这一愿景,并有望超越这一愿景。
尽管AIOps仍处于起步阶段,但智能化给运维领域带来效率上的质变已肉眼可见。
这个领域的持续创新将为更多企业带来新的业务价值。