鸿雪科技董事长兼CEO郑乃东：AI加剧网络可靠性风险，SRE成宕机事件“良药”

2024-07-16 16:25

中国电子报、电子信息产业网

宋婧

随着互联网软件功能越来越多，结构越来越复杂，在日常运营过程中出现问题的概率也会越来越大。一些大型科技公司，如亚马逊、微软和谷歌等，每年在系统可靠性上的投入占其整体技术预算的15-20%。

本文来自微信公众号“中国电子报、电子信息产业网”，作者/宋婧。

近来，全球宕机事件频发，引发用户和业内人士对网络稳定性与安全性的担忧。7月1日，鸿雪科技董事长兼CEO郑乃东在接受《中国电子报》独家专访时表示，随着大量传统应用变成了互联网应用，且已深入到工作生活场景中，宕机事件带来的影响越来越大。推动SRE（网站可靠性工程）是解决可靠性、避免各种宕机的重要路径。

鸿雪科技董事长兼CEO郑乃东

宕机事件频发加剧系统可靠性担忧

4月8日，“腾讯云崩了”冲上热搜。大量网友反馈，称腾讯云出现服务故障，接口响应报错、网页显示504错误，范围覆盖全国各地。6月4日，ChatGPT遭遇近8小时大规模宕机，包括其网站和应用程序在内都无法访问，全球数百万用户受到影响。7月2日，阿里云发生宕机事件，虽说从发现故障到解决用时31分钟，从发现故障到影响恢复用时38分钟，但B站、小红书、恋与深空、酷安等多家大厂APP均受到波及。

“大家之所以感觉到宕机事件变多了，主要原因是互联网应用的数量变多了，像以前的Office和WPS这种单机软件现在也都连接了云服务，大量传统应用都变成了互联网应用，仅苹果商店的互联网应用数量就超过200万个，而且这类互联网应用已经深入到我们的工作生活当中，比如微信、嘀嘀、美团、抖音、腾讯会议等，因此我们对宕机的感知也会越来越明显。”郑乃东分析说道。

ChatGPT宕机事件

实际上，随着互联网软件功能越来越多，结构越来越复杂，在日常运营过程中出现问题的概率也会越来越大。一些大型科技公司，如亚马逊、微软和谷歌等，每年在系统可靠性上的投入占其整体技术预算的15-20%。而在国内，很多公司依然存在不重视可靠性、可靠性人才奇缺、没有可靠性管理、对可靠性认识模糊等问题。

“最要紧的是主观上的重视程度，不管是云供应商、软件开发商，还是运维环节的服务厂商等，各方都需要重视线上事故的预防、发现、定位、处理、复盘的全链条保障；比如投入专门的资金，设置专门的岗位来从事可靠性管控方面的工作。”郑乃东表示。

SRE有望在国内市场快速推广应用

SRE全称是Site Reliability Engineering，指网站可靠性工程，最早由Google提出，旨在提高软件系统的可用性、低时延、性能、效率、变更管理、监控、应急响应和容量管理等方面的能力。

“SRE主要通过自动化、监控、预防性措施和持续改进来减少故障发生的概率，并且降低故障所造成的影响。”郑乃东向记者介绍说道。首先，SRE能通过监控和告警系统提前发现潜在问题，并快速响应和恢复系统服务；其次，SRE采用软件工程的方法，与开发人员紧密合作，倡导构建业务系统内置的可靠性，并在运维过程中使用自动化和标准化的流程，减少人为错误，从而进一步提升系统的稳定性；此外，通过降低琐事和持续优化的运营流程，SRE可以减少运维人员的工作负担，提高运营效率。

近年来，随着中国互联网产业、云计算快速发展，系统复杂性和对可靠性的需求大幅增加，SRE的价值逐渐被广泛传播和认可。国内互联网大厂如百度、阿里巴巴、腾讯、京东等大型互联网公司由于业务规模庞大、用户数量众多、系统复杂度高，率先认识到SRE的重要性，并积极推动SRE的实施。

郑乃东分析说道：“这些公司需要确保其平台能够在高流量情况下稳定运行，避免服务中断对用户体验和公司收入以及声誉造成的负面影响。因此，SRE成为了它们提升系统可靠性、提高服务质量的重要手段。”

传统型企业乃至中小企业也开始主动关注，并在生产环境中应用SRE。据权威调研机构统计，到2022年，中国约有40%的大型企业和20%的中小型企业正在推行SRE实践，并且这样的企业逐年递增。“未来，随着技术的不断发展和企业需求的增加，SRE在全国的应用将更加广泛和深入。”郑乃东判断称。

AI给SRE带来挑战与机遇

尽管SRE可以显著提升系统的可靠性和稳定性，但郑乃东同时也指出，SRE存在局限性，并不能完全消除宕机现象和所有的技术问题。比如，复杂的业务逻辑问题，SRE主要关注系统可靠性层面的问题，复杂的业务逻辑错误仍需依赖开发团队解决。再比如，基础设施故障，硬件故障、网络中断等基础设施问题可能超出SRE的控制范围。另外，自然灾害、突发事件等不可预见的灾难，SRE无法完全避免，但可以通过灾备方案减小影响。

在他看来，AI的到来既为SRE带来了新的挑战，也带来了新的机会。一方面，AI系统本身往往具有很高的复杂性，复杂的架构与当前系统的依赖关系，使得企业需要花费很大成本学习和驾驭AI技术。据调研，超过60%的企业认为AI系统的复杂性是实施过程中最大的挑战之一。

另一方面，AI系统依赖大量数据，数据质量和完整性问题可能导致模型误差和系统故障，SRE需要通过软件工程的方法，配合统一的数据模型，确保所有管理数据管道的稳定性和可靠性。利用高质量的数据，才能使AI算法和大模型更加精确和高效。

此外，许多AI应用，特别是大语言模型相关的会话交互型场景里，都需要实时处理和及时响应。在一项2023年的研究中，85%的AI应用对响应时间的要求在毫秒级以内。SRE需要确保相关系统具有足够的性能和低延迟，以满足这些实时性要求。

“AI模型管理、数据工程、安全性这三点非常重要。”郑乃东表示。他认为，SRE需要掌握AI模型的部署、监控和管理技能，确保模型在生产环境中的稳定性和性能，同时也要增加数据工程的能力，确保数据、管道的可靠性和数据质量，以支持AI系统的正常运行。此外，AI系统可能面临新的安全威胁，SRE还应该关注AI模型和数据的安全性，防止内部敏感数据泄露和受到攻击。

国内SRE产业生态建设亟需提速

随着新质生产力发展步伐加快，企业数字化转型逐渐走向深水区。在这一过程中，构建稳定、可靠且高性能的基础设施至关重要。SRE作为基础设施战略的关键组成部分，为业界提供了实现先进基础设施策略的关键思路。

然而，业内人士普遍认为，国内SRE产业生态建设仍然面临人才短缺、技术积累不足、文化转型难、工具和平台集成难等多重挑战。以人才建设为例，SRE是一个相对较新的领域，具备相关技能和经验的人才供不应求，根据2023年的数据显示，中国SRE工程师的供需缺口超过30%。这导致企业在招聘和培养SRE工程师时面临困难。

第六期信创工程师高级研修班现场

“相比国外，我国在SRE实践上的技术积累相对较少，很多企业缺乏成熟的SRE实施经验和最佳实践指导。而与国际上对比，约60%的国外大型企业已经实施了成熟的SRE实践。”郑乃东坦言。

为缓解人才短缺的问题，越来越多的培训机构正在开设SRE相关课程。鸿雪科技便是其中之一。其培训涵盖了SRE的各个维度，包括自动化、可观测性、AIOps、平台工程、高可用、灾备等，确保学员能够全面掌握SRE所需的各项技能。讲师团队皆为行业内资深SRE专家，不仅具备丰富的SRE实践经验，还参与过许多大型项目的实施，能够提供深刻的洞见和实用的建议。据统计，2023年参加了专业SRE培训的企业系统可靠性提升20%，运维效率提升15%。

“SRE人才保障了AI以及所有业务系统生产环境的可靠性和性能，通过自动化和可观测性减少宕机风险。他们确保所有服务在高并发情况下稳定运行，是AI系统和所有其他业务的‘守护者’。SRE团队的存在能够将系统宕机时间减少50%以上。”郑乃东强调。他指出，算法和数据提供智能和支持，SRE确保系统可靠运行，三者共同协作才能实现AI系统的全面成功。

THEEND

免责声明：凡注明为其它来源的信息均转自其它平台，由网友自主投稿和发布、编辑整理上传，对此类作品本站仅提供交流平台，不为其版权负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。若有来源标注错误或侵犯了您的合法权益，请作者持权属证明与本站联系，我们将及时更正、删除，谢谢。联系邮箱：xiali@infoobs.com

本月热门

精选文章

热点资讯

云计算技术的缺点有哪些？

鸿雪科技董事长兼CEO郑乃东：AI加剧网络可靠性风险，SRE成宕机事件“良药”

2025 信息化观察网

长按扫描二维码阅读原文