AWS 再次發生宕機事件，云時代下的我們該如何補救？-有解無憂

屋漏偏逢連夜雨，據外媒 ZDnet 報道，美國東部時間上午 10：26 左右，AWS 網路再次開始出現嚴重的問題，根據 Outages 郵件串列（供 ISP 和網路運營商報告和跟蹤重大互聯網問題的中央郵件串列）上的報告顯示，AWS 托管服務于早晨開始變得“不穩定”，

許多基于 AWS 的業務服務，如雙因素身份驗證端點安全服務 Duo、視頻會議平臺 Zoom、訊息傳遞服務 Slack，以及 Hulu、Xbox Live 和 Halo 在內的娛樂服務均受到了不同程度影響，

一周前 AWS 的宕機事件

之所以用“再次”，是因為在本月的 7 號，AWS 已經發生了一次大規模的宕機事件，此次宕機事件對亞馬遜配送業務造成了嚴重破壞，以及 Facebook、Coinbase、Robinhood、迪士尼+、Netflix、任天堂等網站紛紛“躺槍”，彼時亞馬遜在篩查問題后給出解釋稱：

絕大部分 AWS 服務和所有客戶應用都在其主網路內運行，但它還用一個內部網路托管了基礎性的服務，包括監視、內部 DNS 服務等，鑒于其重要性，AWS 用了多個地理位置上隔離的網路設備連接到這個內部網路，大幅擴展網路容量，確保其高可用性，12 月 7 日 7:30 AM PST，主網路的一個自動容量擴展活動意外引發了內部網路客戶端的活動，導致了連接激增，連接內部網路和主網路的網路設備出現擁堵，通信延遲，引發了持續的擁堵和性能問題，影響到了團隊實時監控的能力，使得他們難以快速識別問題的根源，只能依靠日志判斷發生了什么，

亞馬遜回應其已采取了行動確保相同的問題不會再次發生，但如今 AWS US-West-1、2 再次發生問題，AWS 雖然迅速發布報告，排查出問題出在美國西部 1 區和 2 區兩個區域的互聯網連接上，并表示“我們已經解決了影響與 US-WEST-1 區域的互聯網連接的問題，區域內的連接不受此事件的影響，問題已得到解決，服務運行正常，”但仍有不少用戶反駁道，“它看起來已經穩定了一些，但仍然存在一些 Bug，”

宕機原因

如今上云時代，云計算為數字化建設帶來的功能性、效率與穩定性不容置喙，不過宕機事件也時有發生，且全球領先的云計算平臺也未能幸免，在探究宕機的主要原因時，我們發現主要有以下幾種：

人為錯誤，這是唯一一種可歸類于物理、軟體層面的因素，人存在很大的“不確定性”，也正因此，很多云服務提供商會在產品中借助 AI 等技術來提高系統的智能與自動化功能，盡量減少人為錯誤帶來的影響，
網路問題，在這一層面上，云服務商通常會與電信提供商合作，其中關于網路問題，尤其是連接問題會超出云提供商的控制范圍，他們必須要依賴本地的通信服務商們，不過，現在比較好的一點是，如果云服務商在全球范圍內都有運營政策，且在不同地理位置的資料中心之間平衡作業負載，這樣當網路出現中斷時，他們會在合作伙伴解決網路中斷的同時也能夠繼續為終端用戶提供服務，
停電，它是一種常見的物理原因，這對不同國家的電網或獨立發電廠的電源提出了很高的要求，幸運的是，很多云服務供應商的資料中心會有備用發電機，如果發生斷電等情況，資料中心的備用發電機可以支撐一段時間，
網路安全，與很多人常規想象中的有所不同，其實網路攻擊是云服務商無法使用云服務中極其罕見的原因之一，因為通過分布式基礎設施，云服務已經具備很強的抵御能力，網路攻擊事件雖有不少，但真正能夠成功的并不多見，
環境原因，云服務廠商無法控制的一件事就是自然災害或與天氣相關的事情，如颶風、雷暴、海嘯和地震等等，
維護問題，雖然最終用戶只需為他們使用的服務付費，但云提供商需要維護、管理和運營他們整個復雜的 IT 基礎設施，在這個程序中，云提供商也許按計劃改進和升級系統，但也有可能會導致計劃內的服務中斷或系統完全重啟，

宕機無法 100% 避免，我們所能做的就是在日常的操作、開發、使用程序中去降低出錯率的同時，也正如微軟顧問咨詢服務大中華區 Cybersecurity 首席架構師張美波曾建議道：

“雖然云計算技術帶來了按需服務、高擴展性、超大規模資源支持等優點，但是同樣的，由于云計算平臺的用戶、應用和資料資源的高度集中，從而在云計算平臺出現故障時，會導致更為嚴重的破壞和影響，
因此強烈建議大家在選擇云計算服務平臺時，盡量選擇更安全的、更具有領先技術的全球領先云計算平臺，”

此外，我們也不妨通過資料周期性備份、異地多活部署等方案來為云上資料加一份保險，

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/384274.html

標籤：其他

上一篇：二叉樹oj練習打卡

下一篇：6.串口相關知識