亚马逊云服务发生宕机,现已恢复
在美国东部时间10:26左右,亚马逊云服务又一次出现了严重问题。据Outages邮件列表的报告显示,早上AWS的托管服务从早上就开始“摇摆不定”。
亚马逊云服务发生宕机,现已恢复
一星期前AWS发生故障
早在本月的7号AWS就已经发生了一次大规模的宕机,这次的崩溃给亚马逊的分销业务带来了巨大的损失。还有Facebook.Coinbase.Robinhood.迪士尼+.Netflix.任天堂等都是“躺枪”的网站,在这次检查之后,亚马逊给出了一个解释:
大部分AWS服务和所有客户应用运行在主要网络中,但是它也提供了一个内部网络所承载的基本服务,包括监控.内部DNS服务等等。由于AWS的重要性,AWS使用在地理上隔离的多个网络设备与这个内部网络相连接,大大扩展了网络容量并确保其高可用性。十二月七日7:30AMPST,主网络的自动容量扩展活动意外触发了内部网络客户的活动,造成连接剧增,连接内网与主网的网络设备发生拥挤,通讯延迟,并引起持续的拥挤和性能问题,对团队进行实时监控的能力使其很难迅速地发现问题的根源,只能依靠日志来判断所发生的事情。
对此,亚马逊回应说,他们已经采取措施,保证不再出现同样的问题。但是现在AWSUS-West-1.2又出现了问题,尽管AWS很快发布了报告,查明了问题出在美国西部1区和2区的因特网连接上,并且说“我们已经解决了影响到US-WEST-1地区的因特网连接问题。此事件不影响区域内的连接。已经解决了这个问题,服务也正常运作。但是,很多用户的反驳是,“它看上去已经稳定了一些,但是仍然有一些缺陷。”
为何宕机
今天,上云时代,云计算给数字化建设带来的功能.效率和稳定性不容置之不理,但宕机事件也时有发生,而且全球领先的云计算平台未能幸免。当探讨产生宕机的主要原因时,我们发现如下几个方面:
人类错了。只有这个因素才能归入物理.软件层次。人为因素有很大的“不确定性”,也正因为如此,许多云服务提供商在产品中借助AI等技术,提高系统的智能化和自动化功能,尽可能减少人为错误带来的影响。
因特网问题从这个层次来看,云服务提供商经常与电信供应商合作,在这些供应商那里,网络问题,特别是连接问题,已经超出了云供应商的控制范围,而只能依靠本地的通讯服务供应商。然而,目前更好的情况是,如果云服务提供商在全球拥有运营策略,并且在不同地理位置的数据中心之间平衡工作负荷,因此,当网络中断时,它们可以在合作伙伴解决网络中断时继续为最终用户提供服务。
断电。这是一个普遍的物理原因,对各国电网和分立电厂的电力供应都有较高的要求。幸好,许多云服务提供商的数据中心都会有备用发电机,在出现停电时,数据中心的备用发电机能够支持一段时间。
互联网安全和许多人通常想像的不一样,事实上,网络攻击是云服务提供商不能使用云服务的极为罕见的原因之一。由于分布式基础架构的存在,云服务已具备了很强的抗干扰能力,网络攻击事件虽然不少,但真正能取得成功的并不多。
环保原因云计算供应商不能控制的一个问题是自然灾害,或者像飓风.雷暴.海啸,地震等与天气有关的事件。
维修问题。尽管终端用户只需支付他们所使用的服务,但是云供应商需要维护.管理并运行整个复杂的IT基础架构。云提供商可能在这一过程中改善和更新系统,但是也有可能导致计划内的服务中断或者彻底重启系统。