熱點和秒殺來臨前要做的5件事-有解無憂

記得當年《甄嬛傳》熱播，呼叫了我們團隊的媒體資訊介面，介面被呼叫掛了，當時雖然我不負責那一塊，只是目睹了當時大家在臨場解決問題的緊張一幕，但是這件事在我心里埋下了種子，從此追求高可用、高穩定成為職業發展的方向，

今天咱們就來聊一聊熱點和秒殺前要做的5件事，這5件事是按時間順序排列出場，

應急演練

無論對一個軟體系統運行原理掌握得多么徹底，也不能阻止人犯意外錯誤，--瑪格麗特教授

應急演練可以定期舉行，前提是對各種意外情況，提前準備好了預案，預案在演練程序中，可以發現系統問題、檢驗相關人員SOP/EOP的操作熟練情況，

舉個例子：支付系統由于下游銀行通道能力參差，需要制定關閉XX銀行通道的SOP，并進行演練，

應急演練一般要求級別較高的人員進行組織，確保其對突發情況有一定的應變權利，同時也能敏銳的發現新問題，確保效果，應急演練我個人總結要分為4個步驟，實際上也是標準的PDCA方法的步驟：

1、提前通知，確保參加人員掌握了需要的知識，同時同步到應急演練的目標、相關檔案、時間、地點、參加人員

2、演練開始時第一步是告知大家演練的目標、流程和檢查專案，比如程序中會檢查大家對SOP/EOP的操作熟練情況，如果不熟練則會進行通報，

3、按流程步驟進行演練

4、進行演練總結，制定改進計劃

在我實際進行過的演練中，上面提到的第二步做的不是很好，可能是作為一項例行事務，演練組織人員習慣于這項作業，認為沒有必要重復說明，實際上我認為這是最重要的一步，因為第一，每次演練可能會有一些新人加入，他們不了解背景，第二，大家最后可能只記得演練的一個目標，把優化流程、找問題這些事情忽視了，演練效果大打折扣，

SOP/EOP

SOP（Standard Operating Procedure三個單詞中首字母的大寫）即標準作業程式，就是將某一事件的標準操作步驟和要求以統一的格式描述出來，用來指導和規范日常的作業，

EOP（Emergency Operating Procedure三個單詞中首字母的大寫）即應急操作流程，用于規范應急操作程序中的流程及操作步驟，確保人員可以迅速啟動，確保有序、有效的組織實施各項應對措施，

全鏈路壓測

全鏈路壓測是一個很好的資料說話的方法，下面要介紹的擴容和降級都要依賴于壓測的結果進行，同時，它也是提前發現系統問題的有效手段，

擋板壓測/聯合壓測/封版壓測

擋板壓測

擋板壓測就是鏈路上需要與外部互動的地方使用mock模擬來進行壓測，比如微信支付，要模擬使用銀行卡支付，不能每次壓測都先沖幾個億來做測驗吧，這時候可以模擬銀行側的回傳值進行模擬，這個環節主要用于發現內部問題，

聯合壓測

聯合壓測就是真的和互動的外部機構溝通好一起壓測，如果測驗微信支付，還真需要提前沖幾個億來做測驗，當然，測驗完可以退款，這個環節有個重要職責是驗證合作方能力，比如合作方有三個銀行，一個銀行并發量不夠，那大促時就少路由一些請求給它，

封版壓測

封版壓測其實和前面兩個壓測不在同一維度，封版壓測既可以是擋板壓測，也可以是聯合壓測，目的在于測驗系統穩定性，

重啟服務

Java服務如果長時間不發布，沒有任何bug的情況下也會記憶體緩慢增長，因為JVM申請了的記憶體，只要行程不死就不會釋放，雖然咱們JVM引數里指定了堆的大小和每個執行緒占用的大小，但是程式運行程序中還會不可避免的申請很多堆外記憶體，比如資料庫操作就會產生很多堆外記憶體，我負責的服務就發生過一個服務近1年沒有任何發布升級，記憶體比剛重啟后一周增長5%的情況，

除了記憶體，重啟還能避免很多慢性問題在一個關鍵點爆發，所以也熱點和秒殺保護的一個重要舉措之一，

VIRT/RES/SHR

這里既然提到了JVM記憶體，那就順便說一下怎么觀察，常見的是使用top命令，