亚马逊云服务发生宕机，现已恢复

2021-12-23 09:51:46

在美国东部时间10:26左右，亚马逊云服务又一次出现了严重问题。据Outages邮件列表的报告显示，早上AWS的托管服务从早上就开始“摇摆不定”。

亚马逊云服务发生宕机，现已恢复

一星期前AWS发生故障

早在本月的7号AWS就已经发生了一次大规模的宕机，这次的崩溃给亚马逊的分销业务带来了巨大的损失。还有Facebook.Coinbase.Robinhood.迪士尼+.Netflix.任天堂等都是“躺枪”的网站，在这次检查之后，亚马逊给出了一个解释：

大部分AWS服务和所有客户应用运行在主要网络中，但是它也提供了一个内部网络所承载的基本服务，包括监控.内部DNS服务等等。由于AWS的重要性，AWS使用在地理上隔离的多个网络设备与这个内部网络相连接，大大扩展了网络容量并确保其高可用性。十二月七日7:30AMPST，主网络的自动容量扩展活动意外触发了内部网络客户的活动，造成连接剧增，连接内网与主网的网络设备发生拥挤，通讯延迟，并引起持续的拥挤和性能问题，对团队进行实时监控的能力使其很难迅速地发现问题的根源，只能依靠日志来判断所发生的事情。

对此，亚马逊回应说，他们已经采取措施，保证不再出现同样的问题。但是现在AWSUS-West-1.2又出现了问题，尽管AWS很快发布了报告，查明了问题出在美国西部1区和2区的因特网连接上，并且说“我们已经解决了影响到US-WEST-1地区的因特网连接问题。此事件不影响区域内的连接。已经解决了这个问题，服务也正常运作。但是，很多用户的反驳是，“它看上去已经稳定了一些，但是仍然有一些缺陷。”

为何宕机

今天，上云时代，云计算给数字化建设带来的功能.效率和稳定性不容置之不理，但宕机事件也时有发生，而且全球领先的云计算平台未能幸免。当探讨产生宕机的主要原因时，我们发现如下几个方面：

人类错了。只有这个因素才能归入物理.软件层次。人为因素有很大的“不确定性”，也正因为如此，许多云服务提供商在产品中借助AI等技术，提高系统的智能化和自动化功能，尽可能减少人为错误带来的影响。

因特网问题从这个层次来看，云服务提供商经常与电信供应商合作，在这些供应商那里，网络问题，特别是连接问题，已经超出了云供应商的控制范围，而只能依靠本地的通讯服务供应商。然而，目前更好的情况是，如果云服务提供商在全球拥有运营策略，并且在不同地理位置的数据中心之间平衡工作负荷，因此，当网络中断时，它们可以在合作伙伴解决网络中断时继续为最终用户提供服务。

断电。这是一个普遍的物理原因，对各国电网和分立电厂的电力供应都有较高的要求。幸好，许多云服务提供商的数据中心都会有备用发电机，在出现停电时，数据中心的备用发电机能够支持一段时间。

互联网安全和许多人通常想像的不一样，事实上，网络攻击是云服务提供商不能使用云服务的极为罕见的原因之一。由于分布式基础架构的存在，云服务已具备了很强的抗干扰能力，网络攻击事件虽然不少，但真正能取得成功的并不多。

环保原因云计算供应商不能控制的一个问题是自然灾害，或者像飓风.雷暴.海啸，地震等与天气有关的事件。

维修问题。尽管终端用户只需支付他们所使用的服务，但是云供应商需要维护.管理并运行整个复杂的IT基础架构。云提供商可能在这一过程中改善和更新系统，但是也有可能导致计划内的服务中断或者彻底重启系统。

以上就是汉码未来给大家分享的文章，希望对小伙伴们有所帮助，想要了解更多亚马逊云服务发生宕机，现已恢复相关内容的小伙伴可以登录汉码未来官网咨询，主打5人小班，全程面授，主打Java开发，web前端开发等课程，有专业的授课老师为你答疑解惑。

分享到：

上一篇: MLSQL的新名字：Byzer ...

下一篇: Rust是炒作还是真实力...

汉码未来

亚马逊云服务发生宕机，现已恢复