网络安全事件2018年
(2018-09-10 17:39:42)
标签:
网络安全 |
分类: 时事新闻 |
9 月 4
日,微软在美国中南部地区的圣安东尼奥数据中心由于雷电天气影响导致电压激增,数据中心的冷却系统发生故障。为保证数据和硬件完整性,数据中心的自动化措施强制关闭了系统电源以防止机器因过热造成损坏。这一事故引发了
Azure 中断,Office 365 以及 Azure Active Directory
服务都受到影响,并且恢复相关存储服务经历了很长时间。
故障从 9 月 4 日上午 9 点(北京时间 9 月 4 日 17:00)左右开始出现问题,到 9 月 5 日 13
点左右(北京时间 9 月 5 日 21:00 左右),微软大多数受影响服务的存储可用性已经恢复,整个故障中断时间超过 24
小时。
微软在Azure状态页面上的一份声明中表示:“美国中南部的数据中心附近发生了一起恶劣的天气事件,包括雷击。这导致电源电压升高,从而影响了散热系统。确保数据和硬件完整性的自动化数据中心程序立即生效,关键硬件进入了有条不紊的断电过程。”
散热系统是现代数据中心的一个重要组成部分,因为散热系统是消除在一个封闭的地方紧密堆叠在一起的成千上万台服务器产生的高温所必不可少的。简而言之,如果这个系统出了故障,所有系统都将随之停运。
因此,如果温度上升到超过安全水平,像微软这样的公司落实了自动关闭数据中心机器的程序。这是保护微软数据中心投资的重要措施,但是对云客户来说也带来了很大的不便。
微软提到的恶劣天气很可能与飓风戈登有关,这场1级风暴目前正在得克萨斯州海岸的附近兜转。
微软表示,这起故障已影响了许多Azure云服务,包括Visual Studio Team服务。停运的其他服务包括Azure
Active Directory身份管理服务和基于云的生产力套件Office 365。
Visual Studio Team
Services小组补充道:“由于一些内部基础设施依赖Azure云服务,美国中南部地区以外的企业组织的客户所用的持续集成/持续交付(CI/CD)工作流程和仪表板也可能受到了影响。”
专家们表示,这一事件向使用云服务的企业组织敲响了警钟:说到运行云端的关键工作负载,只有傻瓜才会依赖单单一家提供商。
Mimecast有限公司的网络弹性专家彼得•班纳姆(Pete
Banham)说:“今天Azure发生的事件再一次清楚地表明,企业组织需要做好自己的冗余机制,而不是依靠单单一家提供商。”
Constellation研究公司的首席分析师兼副总裁霍尔格•米勒(Holger
Mueller)表示,不过,该事件也给了希望避免将来发生此类事件的微软一个深刻的教训。
米勒说:“这次事件深刻地提醒人们,即使对于像微软这等规模的IaaS提供商来说,要保持数据中心正常运行有多难。闪电、洪水、飓风、大雪和暴雨都会影响数据中心的可用性。所以一个关键的问题是,微软从中汲取了什么教训?它如何在将来能避免类似的故障?这给了希望加强云基础设施的公司一个深刻的教训。”
在发布的最新消息中,微软表示它在努力使所有受影响的服务重新上线,不过截止本文发稿时,这项工作显然仍在进行之中。
微软表示:“工程师已成功地恢复了数据中心的电源。此外,工程师已恢复了大部分受影响的网络设备。虽然一些服务开始出现了恢复如初的迹象,但抢救工作仍在进行之中。”
这个数据中心已暂停运行,以防止Azure服务器和其他设备出现过热现象。受到此次Azure服务中断影响的还有微软的Office
365产品和Active Directory服务。