目錄
背景
戰前
大促運營計劃
全鏈路壓測
緊急預案梳理與驗證
前置預案執行
大促活動資料配置校驗
大促作戰手冊
戰中
大促重點保障時間點
大促值班人員及協作
戰后
小結
參考
背景
一般電商公司會定期舉辦大型促銷活動(簡稱大促)來提高公司GMV和公司的影響力,比如天貓雙11、京東618等,大促流量一般比平時流量大,且在固定時間點相對比較集中,這就考驗著電商公司的基建能力,也對研發人員有著更高的要求,筆者在2020~2021年期間有幸承擔了大促營銷子域PM、技術部大促總PM等角色,其所在公司規模雖然不大,但大促作戰整體流程的“套路”往往殊途同歸,文中觀點有誤請隨時指正!
整體大促作戰流程可分為戰前、戰中和戰后三個階段,如下圖所示:

戰前
大促戰前的作業會直接決定整個大促的成敗,戰前的主要作業包括大促運營計劃、全鏈路壓測、緊急預案梳理與驗證、前置預案執行、大促活動資料配置校驗和大促作戰手冊,戰前作業的每一部分都是必不可少的一部分,其中全鏈路壓測是大促穩定性保障的基石,
大促運營計劃
一切大促都從大促運營計劃開始,往往在大促前一個月起運營計劃已經初步形成(這里不再講述運營的準備作業,以技術為側重點),首先進行的是大促運營計劃宣講,核心參與人主要有業務PM及各業務核心運營、核心技術負責人、核心業務PD等,主容主要明確以下幾點:
- 大促時間節奏,包括預熱蓄水期和正式爆發期
- 大促優惠策略和優惠力度,如秒殺券滿50減30等
- 目標GMV

這里重點強調兩個詞:優惠策略和優惠力度,優惠策略是指運營結合多種營銷玩法常用的營銷手段,運營平臺經常會提供多種多樣的營銷玩法如累計返利、滿減等,但每種營銷玩法有其特定的場景和局限性,為了達到更好的營銷效果,運營經常會結合多種營銷玩法去設定活動,舉個例子,購買商品A返滿10減5優惠券(禮包套餐活動),同時商品A參與了累計返利活動,意味著商品A同時參與了禮包套餐活動和累計返利活動,可能在同一大促時間點分布在兩個不同的會場,這就需要技術PM進行大促計劃時需要關注到具體的優惠策略,在做大促方案時需要關注到具體的商品ID,另外優惠力度是指優惠的程度大小,做事程度大的活動自然會吸引很多流量,針對的大促的方案也會特殊對待,比如大額秒殺券和普通秒殺券優惠力度就不一樣,
運營計劃宣講以后,接下來由各域負責人需要選出大促技術PM、PTM、以及各子域PM,最終整個大促運營計劃由技術PM和PTM來規劃和主導,技術PM和PTM需要確認以下幾項:
- 大促運營計劃中是否有遺漏問題,若有問題,是否有替代方案
- 全鏈路壓測支持人員及大體時間節奏,后續需要制定全鏈路壓測計劃
- 大促值班人員及時間點
全鏈路壓測
因篇幅有限,且全鏈路壓測是一項復雜耗人力的作業,需要單獨一篇,請看這里電商大促作戰指南之全鏈路壓測
緊急預案梳理與驗證
緊急預案包括技術緊急預案和業務緊急預案,技術緊急預案是針對系統例外如限流降級等應急方式,業務緊急預案用于應對業務變更等非系統性例外帶來的需應緊急處理的問題,有時候技術緊急預案可以和業務緊急預案相互補充來應對例外場景,另外,對緊急預案的驗證是一個很重要的作業,

前置預案執行
前置預案執行主要是指為迎接大促做的準備作業,如機器重啟、快取清理與預熱、表資料清理、限流等,
大促活動資料配置校驗
大促活動資料配置校驗是一項非必要但重要的作業,“非必要”是指在運營配置完活動資料后,是否有必要由開發再次check一遍,這涉及到運營活動資料一旦配置錯誤后故障擔責問題,大促活動資料配置流程最好增加如審核加多重業務提示的方式盡量減少風險,不同的業務資料檢測不一,筆者負責營銷域開發,一般涉及到活動基本資料的校驗(如活動時間、優惠券發放數量及額度),
大促作戰手冊
大促作戰手冊是整個大促保障的行動依據,大促作戰手冊是常見穩定性問題解決方案手冊,手冊的積累與完善必須是一項常態化的作業,這樣才能做到盡量的全面,筆者曾經想嘗試收集公司內所有大促穩定性問題和日常故障并整理為“穩定性問題常見解決方案”手冊,耐何級別和廣度不夠,只能總結自身域的穩定性問題,技術總結是伴隨著每位研發的職業生涯,筆者建議每位研發養成技術總結的習慣,示例如下:
- 記憶體暴漲常見解決方式及故障事例
- 介面超時學習排查方式
- ......
戰中
大促重點保障時間點
大促需要依賴大促運營計劃制定大促重點保障時間點及相關的業務,需要明確到具體的活動玩法、值班人及涉及的核心應用,另外,大促前一周需禁止核心應用的線上變更(緊急變更走審批),示例如下:

大促值班人員及協作
除上述重點保障時間點值班人員外,還需要其他如運維、前端、測驗、業務、技術、資料等人員時刻 ready 來應對緊急狀況,值班內容包括:
- 重點保障時間點關注系統告警、監控指標
- 大促性能及業務問題解決并記錄(比如工單、截圖、日志等)
- 核心業務指標、性能指標等播報
- ......
大促程序中會發生很多系統報警,如qps暴漲等,相關的研發要在日常中不斷地優化無效告警,提升告警的有效性,準確識別系統和業務問題,同時又不至于淹沒在大量的無效告警中,告警優化可參考:無效告警優化實踐總結
戰后
大促過后需要做好復盤作業,其中包括:
- 系統資源回收,包括限流閾值調整、集群縮容等操作
- 業務問題、穩定性問題復盤出現的原因、解決方案,并對應到具體解決時間點和責任人
- 做的好的地方和不足的地方(如遺漏點等)
- ......

小結
上述大促作戰的每個環節的細節和示例點會有不全,但總體大促作戰思路是一致的,另外,大促作戰的穩定性比較依賴于日常系統的健康程度,日常穩定性作業做得不夠好,很容易在大促中暴露穩定性問題,作為研發要多在日常作業中多參與、多觀察與多解決相關的穩定性問題,這樣才能在大促中做到有條不紊,
參考
- 無效告警優化實踐總結
- 穩定性保障6步走:高可用系統大促作戰指南
- 關于性能測驗的幾個要點
- 如何做“健康碼”的性能壓測?
歡迎關注微信公眾號:方辰的博客

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/423410.html
標籤:其他
下一篇:電商大促作戰指南之全鏈路壓測
