3月3日凌晨,阿里云华北地区出现大规模宕机故障,多家互联网公司都遭到了服务突然中断的影响。事故发生后不久,阿里云官方凌晨回应称,华北2地域可用区C部分ECS服务器等实例出现IOHANG,经紧急排查处理后逐步恢复,此外将根据协议尽快赔偿。
宕机,云服务商无法避免的事情
这些年,随着互联网经济的快速发展,云服务的技术水平、服务模式和使用规模都在持续提升,公有云服务日益被当做与水、电、煤气同等级的基础设施来看待。然而与其他基础设施一样,公有云服务同样会出现故障。以2018年的情况为例,包括亚马逊AWS、微软Azure、谷歌云在内的主流云计算厂商,都出现过规模较大的宕机事件。
2018年3月2日凌晨,因亚马逊AWS的网络服务出现问题,导致依赖AWS服务的部分Alexa开始出现失声问题。该智能音箱的红色指示灯不停闪烁表明服务出现中断,Alexa也一直发出系统内置道歉声。随后几小时内,Alexa又接到了成千上万封投诉。
2018年9月4日上午,微软Azure美国中南区数据中心附近发生雷击在内的恶劣天气,影响冷却系统的电压,导致多个Azure服务出现连接问题,客户难以访问存储在该区数据中心的资源。受影响的服务包括Office365、ActiveDirectory、VisualStudioOnline、VisualStudioTeamServices等。
2018年11月9日,谷歌公有云上提供的Kubernetes服务(GKE)宕机。节点池建置功能出现异常,维运人员无法透过CloudConsoleUI建立新节点。
在国内云服务领域,阿里云,腾讯云在2018年也出现过宕机情况。
2018年6月27日,阿里云出现重大技术故障,恢复时间大概花费一小时。后经过技术复盘,阿里给出的故障原因为工程师团队上线自动化运维新功能时,执行了一项变更验证操作,该操作在测试环境中未发生问题,上线后触发未知bug所致。
2018年7月24日,腾讯云出现宕机情况。用户登录腾讯云时反复出现超时、退出等情况,即便更换运营商,结果也一样。随后,腾讯云发布通知称初步确定是运营商光缆中断,运营商已经找到断点,主要受影响的为广州区域部分用户。
纵观这些宕机事故,其原因可说是五花八门,有软硬件故障造成、也有环境温控失效造成、甚至还有雷击天气的因素。
可见,在当前技术条件下,无论在国内还是国外,云服务厂商出现宕机情况都是难以避免的。
阿里云宕机损害品牌信誉
过去长时间以来,阿里云在国内具有极高的信誉度,凭借这种信誉度阿里云赢得了巨大的市场,截止2018年底,阿里云的市场份额稳居国内第一。
除了稳居国内运服务市场第一外,阿里云这2年还加快了国际化步伐。如今已经在全球19个地区运营了多达52个可用区。阿里云不但已经实现了对美、英、德、日、中等云计算重要市场的覆盖,而且还在新加坡、马来西亚、印度尼西亚、澳大利亚、中东等区域快速拓展服务市场。据研究机构Gartner数据显示,2018年,阿里云在全球市场份额排名已升至第三。
阿里云国内第一,全球第三的”江湖地位”,使得昨天这场宕机事件显得更加引人注目。
事故发生后,阿里云及时做了回应。阿里云回应称”北京时间2019年3月3日凌晨,华北2地域可用区C部分ECS服务器等实例出现IOHANG,经紧急排查处理后逐步恢复。目前我们已经全面排查其他地域及可用区,未发现此类情况。非常抱歉给您带来的影响!如有任何问题,可通过电话工单随时反馈,感谢您的理解和支持!针对本次故障,我们将根据SLA协议,尽快处理赔偿事宜。”。
从阿里云的回应来看,还是比较实诚的。但从目前的情况来看,此次宕机对阿里云品牌信誉还是带来了不小的影响。
有受到影响的阿里云用户纷纷在各种社交网站上吐槽,疑其技术保障体系的缺陷。
玺哥认为,阿里云必须重视用户的质疑和反应,因为对用户来说,把自家的业务和服务放在阿里云平台上,是对阿里云的信任和认可,现在因为阿里云的原因,自己的服务受到了影响,自己服务的客户、收入也受到了影响。
本次宕机事件,一方面让用户开始对阿里云这个品牌本身产生了质疑,另一方面,也迫使更多企业认真思考“多云战略”。
“多云战略”受关注,腾讯云们的机会来了
本次宕机事件后,如何预防服务中断、避免关键数据丢失成为大家关注的重点,同时, “多云战略”成了大家的焦点议题。
将关键计算能力、核心数据尽量分布在多个品牌的云上,这是避免损失的有效做法。这其实是“老生常谈”,技术人员都知道,但过去多数企业的管理层都没有对此真正重视起来。而近年来各种”宕机”事故的频繁发生,也给企业敲响了警钟,“多云战略”已成为企业在IT基础建设方面的共识。
所谓多云战略,指的是企业同时采用两家或以上的云服务供应商,并且在多个云之间部署热切换系统。这样当任何一家云服务商出现运行故障时,企业的关键应用和核心数据,就能迅速切换到其他云服务商的设施上继续运行。
实际上,多云战略在欧美先进地区早已广泛为企业接受。据IDC的预测数据,到2020年9成以上的企业都会采用“多云”来构建基础IT能力。随着国内企业纷纷跟上这个技术潮流,期望同时采用多个云服务品牌,为关键应用提供安全性。腾讯、电信等云服务商必将得到更多发展机会。
同时,欧美国家企业界的经验表明,由于企业普遍期望降低自身在IT方面的成本、同时又希望提升IT系统效率,所以他们在选择云服务商时,往往倾向于采用行业内排名靠前的品牌。在多云战略中,企业也会同时采用两家排名前列的品牌来支撑自身的IT系统。在欧美,亚马逊AWS、微软Azuer云等,都是各企业多云战略中的常规选项,当前IT系统的高度复杂性、升级迭代的密集度,也只有这些顶级服务商才能胜任。
同理,在国内云服务领域里,目前市场份额排名靠前的阿里云、腾讯云、电信云等,必将成为多数企业“多云战略”中服务商品牌的主要选择。
玺哥认为,正在使用阿里云的许多大企业、甚至中小企业,在考虑部署多云战略时,或将腾讯云列入优先考虑名单。换句话说,本次宕机事件后,在企业界兴起的“多云战略”技术潮流中,腾讯云极有可能成为最大的受益者。
腾讯云们的机会来了,但能否追赶上阿里云的脚步,就要看腾讯云能否抓住这个机会了。
免责声明:此文内容为第三方自媒体作者发布的观察或评论性文章,所有文字和图片版权归作者所有,且仅代表作者个人观点,与 无关。文章仅供读者参考,并请自行核实相关内容。投诉邮箱:editor@fromgeek.com。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。