00 AIOps概念
国际惯例,我们先介绍一下AIOps的概念:AIOps,即Artificial Intelligence for IT Operations,智能运维,将人工智能应用于运维领域,基于已有的运维数据(日志、监控信息、应用信息等),通过机器学习的方式来进一步解决自动化运维没办法解决的问题。
Gartner预测,我们会看到当前的IT应用程序会发生剧变,而且我们管理整个IT生态系统的方式也会改变。这些变化的关键是Gartner所称的AIOps平台。
我们今天要讨论的,就是AIOps的需求挑战,以及我们通过怎么样的方式去应对这种挑战。
01新技术、新挑战,呼唤高度智能的电信网络
正如大家所知道的那样,近年来以5G为代表的新技术在电信网络中得到了快速的应用,新技术的应用,同时也给我们带来了很多的收益,比如大连接、低时延、高速率等等。5G的发展,让这些数据都至少有一个数量级的提升。
但是,在数据量级的提升,伴随着的,是运维难度的增加,从而,给运维带来了如下挑战:
1.网络复杂性:
数据量级的增大,让网络变得更加复杂:新技术得到了快速应用,旧技术却没有同步退出,导致我们每引入一项新技术,都需要在原来的复杂度上做一个加法。而在某些场景,甚至要去做乘法。
比如,在无线领域,2G/3G/4G/5G,“四代同堂”;在核心网,PS/CS/MS物联网等等十域并存......如此高的网络复杂度势必会给运维带来相当大的挑战。
2.2B新需求
运维的第二个挑战是To B的新场景,也就是企业应用。5G的应用推动了智能制造,网络也逐步融入到了企业的生产制造流程当中。在这种情况下,对网络可靠性的要求必然会提高,毕竟网络一旦出问题,生产流程就可能会受影响,甚至会中断,这样造成的损失将会非常大。
3.成本压力
成本压力主要是由前面两个挑战传导而来。前两个挑战导致我们要么面临一个比较复杂的网络,要么就是有更高的要求。如果我们以传统的运维方式去应对的话,必然会导致成本的急剧上升。当然,成本的提高,还有一个因素就是能耗。毕竟,5G的能耗要高于4G的能耗。
讲完上述内容,我们需要思考如何去应对网络运维面对的这些挑战呢?AI技术是关键。
02 AI是提升电信网络自动化和智能化的关键技术
在运维成本方面,有统计显示,90%的运维都需要人工去参与,而70%的成本就是人力成本。在这种情况下,一个很自然的想法就是能不能使用AI的技术来降低人的成本,来提高运维效率。
比如刚才提到5G能耗问题,我们能否通过人工智能的技术来去降低能耗呢?从过往的实践经验来看,上述问题的答案是肯定的。
接下来,我们通过三个例子来说明。
1.基站节能
第一个例子是基站节能的一个例子。基站的能耗是非常高的。在布网初期,基站用户较少,有时候基站常常是空开。针对情况,运营商自然而然想到,能不能对话务量做出一些预测。如果我们能精准的预测话务量的话,那么,在话务量小的时候,我们就可以把一定量的载波关掉,从而达到一个节能目的。据统计,在预测话务量的过程中,通过LSTM神经网络来做预测,可以实现节能10%以上的一个目标。
2.核心网KPI异常检测
第二个例子,是一个异常检测的一个案例:在运营商的核心网部署KPI异常检测服务。原有的异常检测服务,是使用固定阈值进行告警通知。而AI技术,则更加智能、及时、准确地识别异常。
具体例子是在我们使用过程中,有一天晚上,新的检测手段比老方法提前五个小时对故障发出了提示,运维人员收到提示之后,连夜就把故障进行了修复。客户自然非常满意,因为故障修复之后,避免了故障影响早高峰的用户体验。
3.故障识别及根因定位
通常网络上一旦发生故障,就会触发大量的告警,而系统同时又以高经纬维度进行运维派单。如果多个网员上报多个告警,那么就会出现这种重复派单。也就是说发生了一个故障,多网员上报告警,最后可能导致在多个域(无线域和传输域等)都去派单。比如,一次断电,可能派发十几个工单去处理。那么,面对这种情况,能否通过AI技术实现精准派单,达到一故障一工单的目标?答案是,可以的。具体操作我们会在后续讲解中给出。
03开发AI应用仍然面临挑战:开发门槛高、周期长
从上面三个例子我们可以看出,AI相对来说,还是非常靠谱的。但是既然AI如此靠谱,为什么没有得到全面快速的应用呢?因为AI的开发还面临着不小的挑战,简单概括就是六个字:门槛高,周期长。
上图是Gartner的一份研究报告。它从四个维度分析了AI应用的主要障碍。其中最主要的3点:
1)人员技能
2)理解增益与用途
3)数据范围与质量
回到我们说的六个字:门槛高,周期长。
1.门槛高
此处说的“门槛高”,第一点是指缺乏AI算法开发人员。一般的运维团队不会配置专门的AI算法开发人员,这样必然导致AI技能的缺失。但这不是最关键的,因为AI人员通过培训、培养、招聘等手段,都可以解决。
最关键的,也就是我们说的第二点,算法与业务结合难。如果要想把一个应用做好,最好的是从业务出发,根据业务的实际情况选择合适的算法,这样才能把应用做好,这点是非常重要的。但在实际操作过程中,首先,需要有一个业务专家对运维要有深刻的理解;其次,还需要有一个精通AI的算法专家。在这之后,需要他们有充足的时间和意愿坐下来深入的交流。在这里,时间和意愿都会成为阻碍。
第三点是数据。数据包含两个问题:工程问题和标注问题。工程问题其实和接下来要说的第四点是一致的。即,开发一个AI应用实际上是相当大的工程量,因为首先需要接入海量的多模态的数据去完成模型的训练和推理,最后还要去完成结果的展示,包括去对接一些现有的系统。因此除了前面需要的运维专家和算法专家,还需要很多工程开发人员。
2.周期长
开发门槛高,就决定了开发周期长,毕竟有这么高的门槛,如果不能很好的解决的话,那么周期必然会特别长。开发周期长会导致:
第一是,理解增益和用途。怎么理解呢?也就是说,如果我们长时间拿不到结果,那么企业决策人员就可能对AI能产生的效果会表示怀疑,
第二是,时间越长,大家对项目的期望就会越高。假设同样是做一个东西取得了同样的效果,比如说故障修复时长降低5%,两年做出来的和一个月做出来的,得到的评价可能就完全不一样。