本文来自微信公众号“中国电子报、电子信息产业网”,作者/宋婧。
近来,全球宕机事件频发,引发用户和业内人士对网络稳定性与安全性的担忧。7月1日,鸿雪科技董事长兼CEO郑乃东在接受《中国电子报》独家专访时表示,随着大量传统应用变成了互联网应用,且已深入到工作生活场景中,宕机事件带来的影响越来越大。推动SRE(网站可靠性工程)是解决可靠性、避免各种宕机的重要路径。
鸿雪科技董事长兼CEO郑乃东
宕机事件频发加剧系统可靠性担忧
4月8日,“腾讯云崩了”冲上热搜。大量网友反馈,称腾讯云出现服务故障,接口响应报错、网页显示504错误,范围覆盖全国各地。6月4日,ChatGPT遭遇近8小时大规模宕机,包括其网站和应用程序在内都无法访问,全球数百万用户受到影响。7月2日,阿里云发生宕机事件,虽说从发现故障到解决用时31分钟,从发现故障到影响恢复用时38分钟,但B站、小红书、恋与深空、酷安等多家大厂APP均受到波及。
“大家之所以感觉到宕机事件变多了,主要原因是互联网应用的数量变多了,像以前的Office和WPS这种单机软件现在也都连接了云服务,大量传统应用都变成了互联网应用,仅苹果商店的互联网应用数量就超过200万个,而且这类互联网应用已经深入到我们的工作生活当中,比如微信、嘀嘀、美团、抖音、腾讯会议等,因此我们对宕机的感知也会越来越明显。”郑乃东分析说道。
ChatGPT宕机事件
实际上,随着互联网软件功能越来越多,结构越来越复杂,在日常运营过程中出现问题的概率也会越来越大。一些大型科技公司,如亚马逊、微软和谷歌等,每年在系统可靠性上的投入占其整体技术预算的15-20%。而在国内,很多公司依然存在不重视可靠性、可靠性人才奇缺、没有可靠性管理、对可靠性认识模糊等问题。
“最要紧的是主观上的重视程度,不管是云供应商、软件开发商,还是运维环节的服务厂商等,各方都需要重视线上事故的预防、发现、定位、处理、复盘的全链条保障;比如投入专门的资金,设置专门的岗位来从事可靠性管控方面的工作。”郑乃东表示。
SRE有望在国内市场快速推广应用
SRE全称是Site Reliability Engineering,指网站可靠性工程,最早由Google提出,旨在提高软件系统的可用性、低时延、性能、效率、变更管理、监控、应急响应和容量管理等方面的能力。
“SRE主要通过自动化、监控、预防性措施和持续改进来减少故障发生的概率,并且降低故障所造成的影响。”郑乃东向记者介绍说道。首先,SRE能通过监控和告警系统提前发现潜在问题,并快速响应和恢复系统服务;其次,SRE采用软件工程的方法,与开发人员紧密合作,倡导构建业务系统内置的可靠性,并在运维过程中使用自动化和标准化的流程,减少人为错误,从而进一步提升系统的稳定性;此外,通过降低琐事和持续优化的运营流程,SRE可以减少运维人员的工作负担,提高运营效率。
近年来,随着中国互联网产业、云计算快速发展,系统复杂性和对可靠性的需求大幅增加,SRE的价值逐渐被广泛传播和认可。国内互联网大厂如百度、阿里巴巴、腾讯、京东等大型互联网公司由于业务规模庞大、用户数量众多、系统复杂度高,率先认识到SRE的重要性,并积极推动SRE的实施。
郑乃东分析说道:“这些公司需要确保其平台能够在高流量情况下稳定运行,避免服务中断对用户体验和公司收入以及声誉造成的负面影响。因此,SRE成为了它们提升系统可靠性、提高服务质量的重要手段。”
传统型企业乃至中小企业也开始主动关注,并在生产环境中应用SRE。据权威调研机构统计,到2022年,中国约有40%的大型企业和20%的中小型企业正在推行SRE实践,并且这样的企业逐年递增。“未来,随着技术的不断发展和企业需求的增加,SRE在全国的应用将更加广泛和深入。”郑乃东判断称。
AI给SRE带来挑战与机遇
尽管SRE可以显著提升系统的可靠性和稳定性,但郑乃东同时也指出,SRE存在局限性,并不能完全消除宕机现象和所有的技术问题。比如,复杂的业务逻辑问题,SRE主要关注系统可靠性层面的问题,复杂的业务逻辑错误仍需依赖开发团队解决。再比如,基础设施故障,硬件故障、网络中断等基础设施问题可能超出SRE的控制范围。另外,自然灾害、突发事件等不可预见的灾难,SRE无法完全避免,但可以通过灾备方案减小影响。
在他看来,AI的到来既为SRE带来了新的挑战,也带来了新的机会。一方面,AI系统本身往往具有很高的复杂性,复杂的架构与当前系统的依赖关系,使得企业需要花费很大成本学习和驾驭AI技术。据调研,超过60%的企业认为AI系统的复杂性是实施过程中最大的挑战之一。
另一方面,AI系统依赖大量数据,数据质量和完整性问题可能导致模型误差和系统故障,SRE需要通过软件工程的方法,配合统一的数据模型,确保所有管理数据管道的稳定性和可靠性。利用高质量的数据,才能使AI算法和大模型更加精确和高效。
此外,许多AI应用,特别是大语言模型相关的会话交互型场景里,都需要实时处理和及时响应。在一项2023年的研究中,85%的AI应用对响应时间的要求在毫秒级以内。SRE需要确保相关系统具有足够的性能和低延迟,以满足这些实时性要求。
“AI模型管理、数据工程、安全性这三点非常重要。”郑乃东表示。他认为,SRE需要掌握AI模型的部署、监控和管理技能,确保模型在生产环境中的稳定性和性能,同时也要增加数据工程的能力,确保数据、管道的可靠性和数据质量,以支持AI系统的正常运行。此外,AI系统可能面临新的安全威胁,SRE还应该关注AI模型和数据的安全性,防止内部敏感数据泄露和受到攻击。
国内SRE产业生态建设亟需提速
随着新质生产力发展步伐加快,企业数字化转型逐渐走向深水区。在这一过程中,构建稳定、可靠且高性能的基础设施至关重要。SRE作为基础设施战略的关键组成部分,为业界提供了实现先进基础设施策略的关键思路。
然而,业内人士普遍认为,国内SRE产业生态建设仍然面临人才短缺、技术积累不足、文化转型难、工具和平台集成难等多重挑战。以人才建设为例,SRE是一个相对较新的领域,具备相关技能和经验的人才供不应求,根据2023年的数据显示,中国SRE工程师的供需缺口超过30%。这导致企业在招聘和培养SRE工程师时面临困难。
第六期信创工程师高级研修班现场
“相比国外,我国在SRE实践上的技术积累相对较少,很多企业缺乏成熟的SRE实施经验和最佳实践指导。而与国际上对比,约60%的国外大型企业已经实施了成熟的SRE实践。”郑乃东坦言。
为缓解人才短缺的问题,越来越多的培训机构正在开设SRE相关课程。鸿雪科技便是其中之一。其培训涵盖了SRE的各个维度,包括自动化、可观测性、AIOps、平台工程、高可用、灾备等,确保学员能够全面掌握SRE所需的各项技能。讲师团队皆为行业内资深SRE专家,不仅具备丰富的SRE实践经验,还参与过许多大型项目的实施,能够提供深刻的洞见和实用的建议。据统计,2023年参加了专业SRE培训的企业系统可靠性提升20%,运维效率提升15%。
“SRE人才保障了AI以及所有业务系统生产环境的可靠性和性能,通过自动化和可观测性减少宕机风险。他们确保所有服务在高并发情况下稳定运行,是AI系统和所有其他业务的‘守护者’。SRE团队的存在能够将系统宕机时间减少50%以上。”郑乃东强调。他指出,算法和数据提供智能和支持,SRE确保系统可靠运行,三者共同协作才能实现AI系统的全面成功。