大促作為JD一年兩度的盛事,質量備戰是不可或缺的重要環節,每逢大促都是一次大型的聯合戰役,在這種戰役中,不僅有各種“海陸空”技術爭奇斗艷,還會讓我們的技術視野變得更寬闊,讓我們協同變得更默契,所謂以戰養兵,測驗團隊作為質量備戰團隊,沉淀了“常態化”、“精細化”、“一體化”的三化備戰策略,希望與君共勉,共保大促!
一、常態化篇( 步履匆匆,籌謀早行,日日如此,穩操勝半)
測驗聯合架構師把大促備戰事項進行分類、分級劃分,將部分備戰作業納入常態化,通過雙周會形式推進系統架構治理,提前消除隱患,使其安全穩固,資源高效,
1.1 流量驅動(流量定開關,伸縮助節源)
為了提高資源的利用效率,產研測聯合成立治理專項,全面分析產品流量狀況和機器資源利用率,持續推進低價值產品的關停并轉,釋放機器資源,通過推進與完善ServerLess部署,使其核心應用具備快速擴縮容能力, 實作資源動態調整,基于流量的關停并轉和全面覆寫的彈性伸縮,為大促備戰低碳化打下了堅實基礎,
1.2 健康指數(健康指數高,高危勿忽略)
- “規則統一,忽略有據”: 測驗聯合架構師團隊設定“不可忽略項”的標準,使團隊成員認知統一,防止忽略潛在風險,虛假高分埋下生產隱患,
- “策略驅動,重心聚焦”: 健康度提供較多檢查項,可以更好地進行應用/任務自檢,及時發現和解決潛在的問題,針對特定事項進行專項治理也是非常必要的,可以采取有針對性、有策略的措施,以提升應用/任務的健康度,如:鏈路超時,JVM引數GC執行緒數合理性,監控告警治理(監控覆寫度、告警合理性、觸達有效性) 和 慢SQL治理 等,
- “天天檢查,日日治理”: 利用自動化方式按日檢查不合規的忽略項和應用健康分,運營通曬治理,確保目標達成 ,
二、精細化篇(絲絲入扣,點滴精雕,精細之道,有備無患)
在構建需求節奏控制、系統質量備戰、資源共享配置的平衡關系上,測驗團隊應充分發揮資源池優勢,通過使用公司統一的平臺工具實作精細化質量備戰,確保資源利用的合理化,專項備戰的差異化,演練場景的多樣化,巡檢事項的自動化,從而提升系統/產品質量和備戰效率,
2.1 資源潮汐(流量蜂蛹至,資源彈伸縮)
- “人力潮汐,未雨綢繆” : 大促需求可能會對備戰帶來一些潛在風險,因此產研測團隊通常會提前1-2個月與業務方識別和鎖定需求,并將測驗資源傾斜到重點專案,通過打造人力資源池,既可以提高長期人力資源規劃的有效性,又可以實作對臨時業務需求的靈活支持,從而更好地應對潛在風險,
- “資源合理,即時釋放” : 軍演壓測是一種有效的容量評估手段,通過設定性能標準,如CPU使用率在50-60%之間,未達到標準則進行資源的縮容,使其使用更加合理,提高資源利用率,通過極限壓測,可確保在高負載下系統能夠穩定可靠地運行,結合業務特性,使用ServerLess的潮汐或冷擴策略實作資源彈伸縮,
2.2 質量加固(地毯式巡檢,自動化護航)
- “質量加固,精細保障”
1.以APP端為例的大促版本質量保障,我們采取以下措施保障和流程管控:基于大促版本重新梳理及聯合評審核心場景用例,在集成測驗階段,功能核心場景全面回歸覆寫,頁面加載性能優化和Crash穩定性治理等,并在灰度發版之前,進行運營配置DoubleCheck和眾測,同時,進行代碼集成管控和組件Diff,專項保障APP版本合規性和預審,以確保大促版本的交付質量和提審通過率,
2.以H5為例的活動類專項保障,我們采取了小流量劇本演練/功能巡檢/兜底/眾測、頁面加載性能、驗簽加固/反爬防刷安全等質量保障措施,結合頁面監控(例外、微信封禁等)、權益預警(活動有效期、優惠券庫存余額)等,防止活動權益出現套刷現象,影響正常用戶權益領取,提升用戶體驗,
- “自動巡檢,省時高效”: 基于公司統一的平臺工具實作7*24小時的UI、介面、輿情及用戶之聲自動化巡檢,提升效率,
2.3 預案演練(預案演練全,限流系統穩)
限流、降級和混沌演練是保障系統穩定性和可靠性的重要措施,可有效防護系統流量超限、提高系統魯棒性,測驗團隊聯合研發進行0/1級應用的多場景的混沌/降級演練和網關/JSF介面的限流配置相互Check,確保限流配置合理,預案演練全面且執行到位,為預案的可視化、自動化及效率提升,測驗團隊聯合泰山團隊實作“預案大屏"和"預案執行觸達" ,使其預案全部收斂至平臺,實作預案自動降級,可視化感知 ,
三、一體化篇(同舟共濟,群策群力,眾志成城,勝券在握)
聯合防護和高效協同至關重要,通過上下游或跨團隊的聯防聯控、資源聯合重保、監控的實時共享,確保各環節之間的協同暢通,問題及時回應,
3.1 聯防聯控(協同緊密連,配合展鋒芒)
備戰的成功依賴于多個系統和團隊的支持,因此確保各環節之間的協同暢通,及時回應問題至關重要,為此,我們集中備戰,測驗主導并梳理產運研上下游介面人,建立溝通群,產研測業務BP,確保關鍵節點的及時溝通和配置修改的雙重檢查,通過打通用戶反饋渠道和輿情預警,并與客服建立應急預案,能夠及時應對用戶反饋和突發情況,
此外,為了降低大促期間的風險,我們嚴格執行集團的 《系統上線封板新要求》,以控制需求對線上系統的影響,并通過架構師委員會評審進行雙重保障,
3.2 資源重保(資源聯合保,系統穩如山)
在每次大促前,測驗團隊牽頭,組織產研測與中間件團隊聯合對J資源集群的重保作業,基于系統峰值流量及可能存在潛在風險,雙方進行交流并給出相關的訴求和建議,進而反哺到團隊的工程實踐,確保資源得到充分保障,消除潛在風險,
3.3 監控大屏(監控上泰山,實時保平安)
泰山作為內部系統監控利器,提供較為豐富的監控能力,我們可以通過雷達、全域、資料任務看板等構建出監控大屏,確保例外可及時感知,同時,營銷類業務的權益監控仍然重要,測驗聯合架構師范訓權益監控系統,如:活動有效期、個人權益超發漏發、優惠券的庫存等實時預警和告警,保障系統的可用性,
最后,大促備戰是一項復雜而重要的任務,需要各部門之間密切協作和高效執行,同時,備戰須提前規劃和部署,實作常態化備戰,避免臨時抱佛腳,預祝618大賣,系統穩如磐石!!!
作者:京東零售 李英亮
來源:京東云開發者社區
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/555277.html
標籤:其他
上一篇:web基礎與HTTP協議
下一篇:返回列表
