运维项目经理的任务之一,就是推动类似系统的建设与发展,不要总想着靠人工去干。因此,在一套核心生产系统开始建设时,哪怕用户不愿付费,我们也自愿赠送一套简化的网管系统。并付出极大的努力,在设计阶段即要求各类应用、业务稽核点设定便于监控的建设方案,尤其应用日志的输出格式;在上线前,组织各组专家落实系统监控、应用监控、业务监控点,为上线后的系统保驾护航。
上线后三个月内,使网管监控系统趋于完善,并持续优化。系统运行、业务监控向自动化、可视化发展,业务运营的异常处理同样如此。生产系统操作人员,主要是营业员、客服、外线施工、各级客户经理、信息化管理者在使用系统进行生产活动时,由于各种原因造成的异常工单、错误数据等问题,以及需要后台批量操作或手工处理的问题,我们也尽量做到自动化、可视化。
在融合BSS项目上线投入运营后,我们发现,它的日常维护工单远高于老系统。这主要是系统被解耦的过于严重、本地维护人员无权限修改、统一版本对差异化的忽视带来的。我们把大量高级工程师投入到日常运维上,简直是巨大的浪费。与系统持续优化需要较高等级工程人员不同,日常运维工作就是个熟练工种。
因此,我们引入了一系列自动化处理工具以减少人力投入、提高投诉处理效率,包括如下。
1.将智能客服机器人引入运维领域这是个创举。智能客服机器人一般用在互联网客服、网上营业厅等系统,面对的是大量用户,大量同质化、简单化问题。运维类问题量一般没有那么大,一天最多也就几百上千笔,而问题定位、解答却较一般业务咨询难得多。但在融合BSS这个项目背景下,由于投诉量长期高启,占用的后台运维人员太多,也同样适用。
投入使用后,咨询类问题减少了50%,其他类问题减少约30%。这其中最重要的工作,就是将人工运维时解答的问题积累形成知识库。使用人员录入要咨询或投诉的问题时,系统根据关键字索引自动推介回复答案。而对于被采纳的答案,将做出标记。下次再有人录入类似问题时,标记最多的答案排在自动回复的前位。也就是这会越用越准。
2.企业版知识库
智能机器人的后台是企业版知识库。实际上运维面对的问题不只是生产异常工单,大量的业务知识、销售宣传、营销文案需要查询、熟悉。由企业级知识库做后盾,各类知识经验能够沉淀传承,一线前台人员可以更快、更好地找到解决方案,减少对专业维护人员的依赖,也降低了操作人员的入职门槛。
3.一键报障
这是自动运维的最高境界。当前台一个报错出现后,操作人员首先通过智能机器人寻找答案,如无法解决,点击“一键报障”,系统将自动对此报错进行稽核分析,给出最优的解决选项,如以CRM侧资料为基准同步账务侧数据,或将此工单强制竣工,被授权的操作人员可选择执行。这样可以最大限度减少人为对生产过程的干预。