什么是数据中心的运维

IT基础设施运维
数据中心求“稳”的特点直接决定了数据中心运维人员的工作特点。数据中心所有的运维工作都要以“稳”为前提,因此没有百分百的把握不要轻易的在运行环境下搞各种操作,没有梳理好可能影响的设备、系统、应用,不要轻易的作出割接、变更、调整的决策。

一个数据中心的良好运转离不开苦逼的运维人。一个数据中心的日常运维工作基本涉及到了IT相关的所有专业,从数据中心机房的设计、暖通、动力、服务器、存储、网络、综合布线、系统、应用、开发、数据分析、数据挖掘。。。基本你能想到的相关IT技术在数据中心都能够一一找到。数据中心俨然就是一个IT技术的聚集地。

不过数据中心是IT技术的聚集地,但是并不一定是IT技术的高地。其实你很难在那些身负重任的数据中心内部找到非常前沿的IT技术。前面我有提到,数据中心需要高可靠性。而正是这一要求,注定了所有的数据中心在日常运维工作中首先都要追求一个字,那就是“稳”。

只有那些经过时间检验、稳定性高的IT技术才会被数据中心采用,因此往往越重要的数据中心如金融行业等其IT技术相对外界显得越落后。比如现在很多银行的软件开发中心仍在采用比较古老的cobol写代码。不过近年来随着互联网企业的飞速发展,大量的新技术也在互联网企业大胆启用。

而数据中心求“稳”的特点直接决定了数据中心运维人员的工作特点。数据中心所有的运维工作都要以“稳”为前提,因此没有百分百的把握不要轻易的在运行环境下搞各种操作,没有梳理好可能影响的设备、系统、应用,不要轻易的作出割接、变更、调整的决策。

工作这些年接触过很多厂家的技术人员,特别是那些刚入行不久的技术人员经常会问一个问题:我这么简单的操作为什么要等半个月?为什么半夜两点才能做?明明一分钟就完事了为什么搞得这么复杂,有点小题大做吧?!

其实答案也很简单,不管是大型的数据中心还是小机房的IT运维人员都要记住,数据中心容不得一点马虎。作为海量数据的载体,你面对的实际上不是一台机器、一个应用,二是通过数据连接的成百上千的用户。几乎所有重要的数据中心割接、变更、调整都是安排在零点甚至2点以后,并且会提前通知或公告客户,目的就是将可能造成的影响降至最低。

很多人说运维人很苦逼,其实苦逼的并不是运维本身,苦逼的是协调本身。很多人误以为运维人只跟机器打交道,实际上情况反而相反,运维人大部分时间是在跟人打交道。如果一个运维人天天忙得半死,围着机器、系统团团转,那问题就严重了。一般来说,数据中心的设备、系统都比较稳定,因此当设备、系统稳定上线后,日常能做的工作无非就是健康检查、分析及一些常规的操作。有的人会说,你重要的操作都是安排在凌晨,那你白天肯定很轻松了。实际上这是忽略了运维人另一个重要的工作,那就是开会!

一个一分钟左右的设备版本升级操作,你可能要开好几个大大小小的协调会、分析会,你要把可能影响到的所有系统、应用全部列出来,你要把可能涉及到的所有风险点都要全部列出来,哪怕这个风险概率才1%。等你梳理完这些风险点、拉出清单后,你就要去协调清单上涉及到的各大部门开会。通常情况下,开一次会还不能定下来这个操作能不能做,毕竟第一次会主要还是搜集下大家的意见。如果业务部门说最近正好是双十一,容不得出现一丝差错,而你跟他说可能有1%的风险,那不好意思,这事情就要往下推。越大的公司往往流程越复杂、分工越细,涉及到的人员及业务部门越多。这一点医院的手术和运维倒是很像,医院哪怕做一个很小的手术,都会告知家属存在一定的风险,要家属签字知晓。

其实我一直认为像很多大型的数据中心运维人员应该将自己定位于数据中心的项目运营分析管理人员,而不是简简单单的技术人员。实际上很多数据中心的技术工作厂家支撑人员都帮你做了,很多数据中心都购买了大量的厂商服务及维保服务。打个比方,你在数据中心负责华为核心交换设备的,单单该设备来说,你在数据中心里面你是专业的。但是与华为的工程师一比,你掌握的很多技术就相对要弱得多。这也很正常,人家是厂家,这个设备就是他们造出来的,他们天天各地处理故障,见过的各种现象远比你见得多。实际上,对于一个运维华为核心交换设备的这位运维人员来说,实际上他执行得更多的是使用和养护工作。

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论