2022年从传统运维到智能运维，正确的领跑姿势是什么？

2022-02-07 14:45

搜狐

Data数据分析站

数据是企业的核心资产，随着数据量、数据维度的爆发式增长，现有的监测分析工具在处理这类数据时压力很大，且现有的BI或数据分析工具只能满足简单的数据分析和可视化功能，如Tableau其无法自动化地在企业跨越多种数据类型采集、洞察数据，进而给出决策。

IT有得聊”是机械工业出版社旗下IT专业资讯和服务平台，致力于帮助读者在广义的IT领域里，掌握更专业、更实用的知识与技能，快速提升职场竞争力。点击蓝色微信名可快速关注我们！

在刚刚过去的2021年，全球发生的科技变革有：

中国建成全球最大5G网络，5G基站达70万个，占全球比重近七成，连接超过1.8亿个终端。

MIT（麻省理工学院）与合作团队仅用19个类脑神经元就实现了控制自动驾驶汽车，而常规的深度神经网络需要数百万个神经元。

中国“祝融”号和美国“毅力”号火星车分别在火星成功着陆，它们将寻找火星上可能存在过的生命迹象。

2020年全球电动汽车销量较2019年上涨39%，达到310万辆。苹果、百度、小米等互联网科技公司纷纷加入造车新势力，车辆自动驾驶由单车智能迈向车路协同。

迄今为止，SpaceX已为Starlink发射了1000多颗卫星，预计到2021年年底，Starlink的服务将会覆盖全球大多数客户，并有望在2022年完全覆盖全球。

上面这些事件只是近期大大小小科技事件中很小一部分，而它们中绝大多数都涉及大数据、人工智能、物联网等新兴技术。这些新技术通过无数软硬件实现万物互联，背后离不开智能运维的辅助。

智能运维顾名思义是智能+运维。智能运维的概念是全球知名的IT研究与顾问咨询公司GART-ner在2016年提出的。当初提出时的英文全称为Algorithmic ITOperations，意指基于算法的IT运维。随着人工智能技术的发展，近两年该英文全称逐渐演化为Artificial Intelligence for IT operations，突出了人工智能算法在IT运维中的应用，现在，这两种英文全称都能在不同文档中见到，同时并存。

智能运维发展的三个阶段

在综合各方观点的基础上，笔者认为智能运维的发展分3个大阶段6个小阶段。分别是人工运维、自动化运维、智能运维３大阶段。其智能等级参考TM Forum自动驾驶网络从L0-L5逐级递增，如图1所示。

图1.运维发展各阶段示意图（以电信运营商为例）

1.人工运维阶段

该阶段分L0手工操作与维护、L1辅助运维两个小阶段。该阶段完全或大部分依靠运维专家的经验规则进行故障定位、根因分析和配置下发等管理任务的制定和执行。进入辅助运维的阶段，通过对重复性典型事件预先在系统中配置触发和调度策略，达到提高运维效率和减少人力成本的作用。

2.自动化运维阶段

该阶段分L2部分自治、L3条件自治两个小阶段。在L2部分自治小阶段，业内提出了ITIL(Information Technology Infrastructure Library)、Devops等理念，强调流程管理质量和打破开发、运维的边界。在这个阶段业内逐渐达成IT研发和运维一体化的共识，但仍未规模化使用Devops工具，主要依靠在系统中定制编写自动化脚本，实现简单数据分析、可视化、参数配置等初始功能，类似早期BI(商业智能)系统。到L3条件自治小阶段，企业已经认可自动化运维的价值，开始停止自己开发脚本，转而使用市场上开源和付费的Devops工具。从OpenStack时代，再到现在的容器时代，借用工具出现了很多自动化运维的高级模式，如网络可用性工程SRE(Site Reliability Engi-neer)、聊天机器人ChatOps等。前者是在保证用户满意度的前提下，平衡系统功能、服务及性能多方因素，是涵盖Devops运维思想、组织架构和具体实践的完整体系ꎮ后者通过插件或脚本实时执行团队成员在会话中输入的每一行命令，将过去成员在各工具输入的命令前端化、透明化，以进一步提升自动化程度。

3.智能运维阶段

该阶段分L4高度自治(又称智能运维前期阶段)和L5完全自治(即无人运维阶段)两个阶段。当在某个领域自动化程度达到一定极限时，必然会被人们个性化需求推动着往智能化方向发展。

L3和L4两个阶段从功能定义上来看，两者必定会在长期共存的状态下进一步演化，预估会共存10-15年，即在此期间内自动化和智能化程度均会逐渐提高。在智能运维早期，AI从单点应用着手，如KPI单指标的异常检测和趋势预测，逐步实现在单点应用上的自主发现问题、诊断问题、解决问题和性能优化。并在各垂直领域中，将专家经验积累成知识库，形成可重复利用的结构化知识点。

在各单点应用逐渐智能化的前提下，将底层各维度数据打通，建立中间通用和专用能力层，灵活应用于上层服务。在每个应用中都能实现从数据自主采集、自主预处理到自优化，模型上实现自主选择、调参、优化及部署。人们的需求将通过语音、姿态、神情等特征进行控制和调度，系统也会自主发现、诊断和优化问题。

在时间维度上，由于各行业自动化和智能化发展速度参差不齐，即使自动化运维和Devops概念已提出多年，但自动化运维工具在企业中的使用依然普及率不高，预计到2030年超过50%企业会普及使用Devops工具。同理，即使从2016年开始，已有企业开始尝试在单点应用上借用AI技术，但要大多数企业能达到高度自治的水平，依然至少需要20-30年时间的探索和发展。而要实现无人运维需要研发和搭建以算力网络、数字孪生、千脑感知网络、边缘智能等技术为基础的“运维大脑”，在高度自治的智能运维阶段基础上，至少还需要20-40年时间。

随着人工智能技术的不断深入，运维管理中，人的角色越来越主动，对数据和工具的掌控力越来越灵活。运维人员收集原始数据后，经过数字孪生和可视化后，再进行打标、模型预训练、结构化知识的提取，最终将专家的经验和数据衍生为应用知识，进而实现工具的自动化和智能化升级，如图2所示。

图2.不同运维阶段中人、数据、工具

3种角色功能和关系演化图

实现智能运维的必要条件

无论是从已经进入AIOps阶段的企业技术架构图（如图3所示）中，还是从Gartner的定义中,都可以清晰地看出:数据是智能运维的基础。准确地说，具备数据能力是一家企业进入智能运维的必要条件。

根据Gartner的定义，AIOps产品或平台主要包括以下5类技术要素。

•数据源:来自各IT基础设施的底层记录数据。

•大数据平台:用于处理、分析静态和动态实时数据。

•计算与分析:数据预处理、数据标准化等清洗工作。

•算法:用于计算和分析，以产生IT运维场景所需的结果。

•机器学习:包括无监督、有监督和半监督学习。

目前所有的AIOps平台需能够提取静态数据(历史数据)和动态数据(实时、流式传输数据)。这些平台允许事件数据、用户数据、日志数据以及图形和文档数据的提取、索引和存储。

数据能力，具体包括数据采集、数据存储、数据治理、数据服务4项核心能力，即以数据中台/大数据平台/数据湖等形式存在的数据底座，至于这几种数据底座的名称之间的细微差别，读者可暂时理解为同一事物。

图3.某企业AIOps技术架构图

每天数据量在1TB以上、底层平台超过5个以上的企业，建立一个可用的数据底座至少需要3年时间。而且这３年中需要一边建设数据底座一边将其与运维业务紧密结合，在试错中建设。构建统一监控平台，实现IT资源的统一管控。利用大数据的手段，采集、分析基础设施、网络、日志等IT监控数据，通过海量IT数据的实时处理分析，消除数据孤岛，实现统一的告警，提升运维管理效率。

由于采集的数据集依然是按照业务逻辑从各平台取出后按表存储的，与后期各类运维场景使用的数据结构相差甚远，因此，需要在数据底座上针对每种运维场景(当然场景的数量是慢慢积累的)，建立企业自身运维的数据标准，并通过自动化程序和配置采集程序来采集标准数据。在数据底座上建立一个个标准化的数据模型，每种运维场景需要的数据可以是一个数据模型中的数据，也可以是多个数据模型组合的数据ꎮ这种数据模型后期将在无人运维阶段，通过数据孪生技术从大数据平台中自动生成。数据将通过统一接口服务于智能运维。

智能运维未来发展趋势

智能运维最终必然会进化为无人运维，类似汽车、飞机的无人驾驶，只有在人为需求变更条件下主动干预才会影响机器的正常决策。要想实现无人运维，背后一定需要类似人脑的“运维大脑”的实时支撑。

从图4所示的基于无人运维技术体系架构来看，首先需要解决数据来源安全、分布式算力整合调度、人机智能融合、智能免疫系统、信任体系价值网络和脑机操作接口等重大难题，进而实现主动任务求解、自适应强化学习、虚拟场景重建、认知整合、数据应用闭环统一和价值交互模式。

图4.基于无人运维技术体系架构

要解决上述难题，实现“运维大脑”，提升其知识泛化能力，很可能是以区块链技术建立分布式可信价值网络生态，加上联邦学习，实现从数据提取、算法选择、算力和存储资源的使用，到数据在使用方的分析应用和优化，在每一次反馈中不断积累价值，形成知识。基于区块链技术运维大脑数据计算流程示意图如图5所示。

图5.基于区块链技术运维大脑数据计算流程示意图

要实现上述目的，在可预见的未来至少需要以下核心技术

•数据聚合和价值交换:数据多方计算与隐私保护。

•数据的关联与重构:数字孪生与注意力机制。

•千脑感知网络:算力网络、边缘智能、分布式决策。

•认知整合:知识图谱、基于场景的模仿学习。

•面向任务的自动机器学习(Auto-ML):自动超参优化编码学习、大规模图卷积学习。

•认知智能混合技术:基于自动特征工程的认知特征提取、基于深度学习的视觉问答VQA(Visual Question Answering)技术。

•基于强化学习的决策智能:基于图的决策智能推理。

•数字化场景重建:基于ＧＡＮ的视频压缩和重建。

•人机协同与脑机接口。

•安全免疫机制。

•多方协同智能:区块链价值网络。

实现“运维大脑”涉及的领域和基础技术如下。

•大数据平台。

•ＡＩ赋能平台。

•区块链数据多方计算。

•数字孪生技术。

•容器云平台。

•图数据库引擎。

•大规模图关联模型。

•算力网络。

•混合现实技术。

•自动机器学习。

•知识图谱。

•价值网络。

•自然语言处理。

THEEND

免责声明：凡注明为其它来源的信息均转自其它平台，由网友自主投稿和发布、编辑整理上传，对此类作品本站仅提供交流平台，不为其版权负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。若有来源标注错误或侵犯了您的合法权益，请作者持权属证明与本站联系，我们将及时更正、删除，谢谢。联系邮箱：xiali@infoobs.com

本月热门

精选文章

热点资讯

2024 数智化创新应用技术大会 | 一号邀请

11月11日
SRM趋势洞察：供应商关系管理将走向何方？

11月11日
喜讯!智邦国际荣获“数智化转型领导品牌”

11月8日
定了!2024电子信息产业创新论坛将在北京召开

11月7日
深圳市物联传媒有限公司荣膺广东省会展企业百强，IOTE物联网展再获殊荣!

11月7日