本文来自物联网智库,作者/Levin。
昨日(12月18日)上午10点47分,阿里云发布公告称,阿里云监控发现香港地域某机房设备异常,影响香港地域可用区C的云服务器ECS、云数据库PolarDB等云产品使用,工程师已在紧急处理中。阿里云称,这一故障也影响了香港地域控制台访问和API调用操作,阿里云工程师昨日一直在配合PCCW机房工程师加速处理。截至目前,与该故障相关的官方网站和APP均可正常访问。
受此故障影响,昨日澳门司法警察局官微发布消息称,“由于阿里云的香港机房节点发生故障,导致澳门金融管理局、澳门银河、莲花卫视、澳门水泥厂等关键基础设施营运者的网站、澳觅和MFood等外卖平台、以及澳门日报等本地传媒应用程式,自今天(18日)中午开始暂时无法访问使用”。不仅如此,甚至Linux中国的官网也因此而无法访问,很多个人站长也表示阿里云的长时间故障影响了他们网站的运营。
除此之外,此次故障对于“币圈”影响也颇为严重。知名交易平台“Gate.io”发布公告表示,受运营商部分网络节点维护影响,充提服务将出现延缓。而知名加密货币交易所OKX(欧易)则在18日上午11:00至19日上午02:50期间交易服务中断了数个小时,直接关停了所有用户的交易并限制提币,此举还导致了部分OKX用户的加密资产显示为0,一度引发该平台用户的担忧。可想而知,此次故障将会对交易所上的投资者信心产生不可估量的打击。
历史上云服务商已发生过多次故障
据零壹智库的不完全统计,自2010年以来,混合云上市公司青云QingCloud发生过约4次故障宕机事件,阿里云发生过约5次故障宕机事件,腾讯云发生过约8次故障宕机事件。其中,阿里云、腾讯云所发生的故障大多发生2018-2019年间——即尽管云服务已经进入技术较为成熟的阶段,但仍有较大概率发生宕机事件。从全球范围来看,自2010年以来,亚马逊云科技AWS发生过约22次故障宕机事件,谷歌云计算平台发生过约12次故障宕机事件,微软Azure发生过约8次故障宕机事件。
在已知发生的云服务故障修复中,修复时间在短至40秒长至24小时不等。而作为一家具备雄厚技术实力的云服务商,阿里云出现如此长时间的持续性服务故障,在业界也属于相当罕见的事件,OKGroup的创始人徐明星甚至把此次故障称为“阿里云发展史上重大丑闻”。
当前,使用云服务的大多都是提供各种服务的APP和网站客户,试想一下,如果用户在点外卖时无法下单或在刷短视频无法播放,都将严重影响用户体验。还有测试结果表明,大多数用户打开网页等待时间的忍耐度是在2秒钟之内,最长不超过8秒,如果故障出现的时间比较久,用户便会关闭网页和APP,给企业带来不同程度的用户流失。
对此,为了衡量云服务商提供的服务质量和系统的稳定性,就必须设定一个统一标准,SLA也为此应运而生。
SLA为云服务用户提供保障
其中,SLA是服务等级协议Service-Level Agreement的缩写,指的是服务提供商与客户之间就服务质量所达成的双方共同认可的协议,它表明了公有云提供服务的等级以及质量,也是云服务商对产品服务能力的保障,云服务商及其产品团队一个很重要的目标就是围绕这些SLA来进行产品设计和运维保障。
举例来说,假设是月度99.95%的SLA,按照每月30天计算,则每个月云服务出现故障的时间只能占总时间的0.05%,即每月最多存在30天×24小时×60分钟×(100%-99.95%)=21.6分钟的不可用时间。如果提升到99.995%,则每个月服务的不可用时间是2.16分钟,不可用时间大幅缩短,也意味着云服务器的稳定性大幅提升。
近期,阿里云还公布了最新的云服务器ECS服务等级协议SLA,单实例的可用性从99.95%提升至99.975%,多可用区多实例可用性从99.99%提升至99.995%,均为全球最高水准。这一简单的数字变化背后,是过去十年阿里云为云计算稳定性做出的努力,除了升级SLA之外,阿里云还提供了企业级云灾备解决方案,为制造、金融、医疗等企业提供一键容灾能力,例如业务恢复、数据保护和网络自愈等,最大程度保护本地和云上业务稳定运行,而此次香港地区超过12小时的服务故障,着实让阿里云体验了一把打脸的感觉。
据阿里云官方公告表示,对于受本次故障影响的产品,阿里云将根据相关产品的SLA协议进行赔付,下图即是阿里云服务器ECS服务等级协议文档中有关赔偿标准的部分:
如今,越来越多的企业在用云服务代替本地的数据中心,主要原因就是传统的数据中心难以达到云服务商保证的超高SLA。通常情况下,云厂商的SLA是线下数据中心的5倍以上,而云的成本则是线下数据中心的几分之一。也正是因为有了相关的赔付承诺,所以各大云服务提供商对于提升SLA都非常谨慎,过度承诺往往意味着公司损失的概率提升。
当然,完全避免云服务发生故障是不可能完成的任务,但提前做好事前预案并及时通知客户做好准备,或许可以进一步降低故障造成的影响。就像欧易交易平台所说,云服务用户也不能对于单个云服务厂商过度依赖,可以快速推进多云战略,确保核心服务部署在多个云服务商,在单个云服务商平台出现故障时,可以快速切换至其他平台,保证服务的稳定性。
虽有“丑闻”,但云服务前景依旧良好
从成立的第一天起,阿里云就在稳定性上进行了大量的技术投入和建设,经过十多年的技术探索,阿里云已经推出了基于自研的飞天大规模操作系统自研服务器、网络、存储、智能调度等技术,不仅大幅提升了系统的稳定性,还可预测感知系统异常,运用热迁移等技术保障客户业务不受影响,最终实现了超高的SLA标准。
目前,阿里云已经是国内公有云行业的第一。在当前的中国公有云服务市场中,虽然天翼云、浪潮云、金山云、京东云等云厂商的名字也有所耳闻,但阿里云、腾讯云、华为云和百度智能云是知名的国产“四朵云”,共同占据了国内云服务的大半江山。从全球市场来看,阿里云在全球市场排名第三,在全球28个地域运营了86个可用区,同时也是亚太市场基础设施规模最大的云计算平台,超过了亚马逊云科技和微软。过去三年,阿里云在海外市场营收增长更是超过了10倍。
不仅如此,今年阿里云还首次实现了年度盈利。据阿里巴巴于今年5月发布的2022年财报显示,其云业务同比增长23%,全年收入在抵销跨分部交易前和抵销后分别为1001.8亿元和745.68亿元,实现盈利11.46亿元。这不仅是阿里云成立13年以来首次实现年度盈利,而且也成为国内首家实现持续盈利的云计算公司。
不过,在盈利的背后,阿里云也面临着云计算市场的增速放缓难题。根据Canalys公布的数据显示,在今年第三季度,国内云基础设施服务支出同比增长8%达到78亿美元,占全球云支出的12%。自2022年第一季度以来,年增长率已经连续三个季度放缓,并首次跌破10%。究其原因,大概是对云服务需求更高的互联网行业大中型客户已经基本完成布局,而现在的云计算不仅需要深入各行各业,还要完成市场教育和前沿技术的研发难题。
写在最后
虽然云服务出现故障时有发生,但相比传统的本地服务,云服务发生故障的概率已经大大降低。而且随着技术的不断完善,云服务还将在更多场景中发挥独一无二的作用。
对于云服务来说,发生故障的原因不仅与技术有关,还可能受到技术处理能力、自然天气、故障原因等多方面因素的影响。尽管阿里云在过去几年取得了长足的进步,但此次超过12小时的持续故障,也足以对云服务厂商敲响警钟,作为云服务平台,确保平台的安全、稳定运行,永远是其最关键的工作之一。
参考资料:
1.《阿里云发生严重事故,故障超12小时,张建锋刚带公司实现年度盈利》,子弹财观
2.《阿里云香港故障:发展史上新的“至暗时刻”》,IT时代网
3.《17次云巨头故障事件梳理,云服务还可靠吗?》,零壹财经