IT体系结构和IT业务的技术发展是运维发展的原动力和推手,所IT业务的开发总是比IT技术的发展战略落后。在IT领域,SDN、云计算、大数据等技术不断涌现IT资源体系结构日益复杂,IT资源规模日益增大,运行的复杂性和难度日益增大,IT可维护性越来越受到人们的关注,而首轮施工后IT可运维性问题也逐渐成为IT管理人员不断关注的焦点。
从早到晚的纯手工运维,到后来依赖于网管工具报告工具化运维为主的工具化运维,与工具相关联或融合的平台运维,以及目前流行的智能和自动化运维系统,使运维领域在技术上不断发生变化。开发新工具并不意味着完全消除旧工具,而是使用不同的工具来解决实际的运维问题。新工具进一步解放了运行运维的效率。
云计算时代,如何选择合适的运维模式,选择合适的运维工具,建立合理的组织结构和管理体系,这些都是IT管理者们必须重新思考的问题。
面临运维的多维属性,企业如何进行自我定位
说到运维和维护,人们往往只考虑技术本身,而忽视场景的差异,简单地追求技术领先和上层建筑,往往事半功倍,不容易达到预期的效果。其实不同的运维场景在实际运维上差别很大,一味求新、求快,并不一定能取得好的运维效果。通过多年对运维领域的了解,我总结了影响运维工具选择的行业属性、成熟度属性、规模属性和位置属性等以下属性
行业
先说行业属性,不同行业由于业务特征不同,其所关注的内容和运行模式也大相径庭。就拿因特网来说,因特网的发布速度快,更新快,服务器数量多,研究开发能力强,通常一周内会有数个甚至数十个新业务发布,同时也会有数十个新的发布。在ITIL基础上开发的变更与发布流程虽然考虑周全、过程严谨,但节奏缓慢、周期长。
在互联网业务快速更迭的行业背景下,传统的变更发布流程已使互联网企业失去了产品的市场机会窗口,因此因特网运应会选择诸如自动化和自我维护等高效的运维模式,要做自动化就必须建立精确的CMDB,为了提高效率必须追求敏捷开发,DevOps、灰色版本和开源模式。那么因特网运维模式主要关注的是运维效率
运维成熟度数
各个行业受各自业务特点的影响,其运维模式、关注点和工具选择各不相同,同时影响运维工具选择的是运维成熟度。运维成熟度也是制约企业运维发展的关键因素。ITIL的核心方法是PDCA,这一方法向我们阐明了运行的一个简单原则是逐步、螺旋上升的模式。运维成熟度的高低,决定着运维所处的不同阶段,也决定了不同时期用户应关注的内容。在运维过程中选择脱离实际情况的激进做法往往只能起到拔苗助长的作用,最后又推倒重来,反而得不偿失。许多用户以前都没有注意这一客观规律,在没有做好监测的情况下,就同时构建了运行流程,从而导致运维过程与监控脱节,流程对运维管理员的帮助非常有限,沦为走单工具。另外一种常犯的错误是在CMDB的构建中过分追求完美,没有与现有的监控功能相结合,由于没有采用自动化方法来简化CMDB的维护工作,相反,过度追求CMDB设计中的精细化,以致CMDB的维护费用很高,甚至超过了实际使用价值,导致CMDB项目最终走向破产。
运维的另一成熟度是指人员成熟度模型。其中包括运维人员的技术成熟度、组织过程成熟度和开发能力成熟度。技术成熟度包括运维人员对网络、计算、存储、虚拟化和业务的熟悉程度和问题处理能力。技术成熟度越高,对问题的处理和反应速度就越快,相反,对管理能力较差的管理员将延长故障恢复时间。因此如何让运维人员减少对个人技能和知识的依赖也是对运维工具的一个重要考虑。以往建立在知识库基础上的系统,实际运行效果不甚理想。要从根本上解决这一问题,一方面要建立起精确的CMDB配置信息库,另一方面要把专家的经验同时固化为运维工具,那么运维专家系统将成为未来运维工具发展的又一趋势
如今,开放源码软件的数量和成熟度日益增加,如果能充分利用开源软件进行自我开发,不管从业务层面还是运维层面,都是很好的选择,但同时也提高了对运行人员开发能力的要求。成熟度,体现了运维人员在需求分析、架构设计、代码编写、开放源码软件熟悉程度、商业背景知识以及对软件开发过程的了解。DevOps在运维界的流行表明了开发和运行维护的逐渐融合,这无疑也是未来运维发展的趋势之一,但是,如果不能充分开发人力,又缺乏敏捷流程储备,如果贸然选择DevOps(开发及运维)模式,有可能面临巨大的风险
因此企业要看清楚自己所处的运维阶段、运维人员成熟度,选择更务实的运维策略,寻求逐步改善、水到渠成的方法
运维规模
还有一点要注意尺寸属性,这一尺度包括哪些内容(服务器和网络)、业务规模和管理人员的数量。一个用户的50个服务器还是200个服务器在运维方面,1000台服务器或者成千上万台服务器之间的差异非常明显。在设备数量较少的情况下,许多时间都可以进行人工管理,但随着受管理设备数目的增加,运行工作量将直线上升,此时运维难度实际上呈指数级上升,再依赖人工运维几乎成为不可能完成的任务。大规模的运维必须依靠自动?监?测测测测工具、自动配置工具、自动部署工具和自动过程工具来辅助实施。随着运行规模的进一步扩大,传统的运行将向大容量运行演化。大容量运行不仅仅是运维工具的改变,大容量运维带来了技术价值的改变,技术手段的改变,以及运维意识的改变,这些都影响到深度运维方法的变革。
大量运行运维指南
影响运维的另一个因素是运维人员规模,如果运维人员在8人以下,则要慎重考虑是否要进行复杂的运维流程建设。过程设置解决了运维事件闭环跟踪、责任确认、规范管理等问题,但若企业的运维人数较少,建立复杂流程反而会降低运维效率,增加运维成本。但若企业运维人员的数量超20世纪末,对运维流程进行规范管理,同时在运维人员绩效管理方面也需要对运维流程进行辅助,此时运维流程的重要性就凸显出来。但随着时代的发展,自动化和智能化技术逐渐普及,运维流程的发展趋势越来越轻量化,ITIL流程体系的建设将在将来越来越少
运维定位属性
最终探讨了运维的定位属性,这里的位置包括了网络位置和逻辑位置。运维目标所处的网络位置大致可以分为接入网络、广域网和数据中心。因为三个系统所处的地理位置不同,其运维差率很高。上一节讨论的大部分内容都是关于数据中心的运行维护,下面主要讲接入网的运维。接入网络运维涉及终端(类型、系统)、接入者(无线吗),在身份认证等方面,由于终端类型复杂,接入人员水平参差不齐,接入网运行的复杂性也较高,运维人员不仅要具备多方面的运维知识,还要有足够的耐心,要有丰富的运维经验,还要有足够的耐心。