
京東智聯云作為京東集團技術保障的基石,在11.11期間,云資料庫扛住了京東物流和京東零售核心業務系統PB級別的資料增長壓力,是2020年618期間訪問峰值的258%,截至11月12日凌晨,京東11.11累計下單金額超2715億元,同比2019年增長33%,
面對每年京東618、11.11訂單量和成交額迅猛的增速,京東智聯云資料庫作為大部分京東背后業務系統的技術保障,面臨較大的挑戰,本篇文章將分享京東智聯云云資料庫部門如何在11.11期間保障大促突增資料壓力的穩定性與安全性,同時介紹有哪些技術手段為大促期間的京東海量訂單保駕護航?

京東對用戶每一筆訂單的生命周期流程(商品搜索-選購-加購物車-下單)都需要實時回應,尤其是在商品下單環節,11.11大促期間受商品活動和優惠時間的影響,用戶下單高峰往往在固定時間段,比如零點后是一個小高峰,面對集中時間段內訂單量突增,QPS是平時全天總量的30-50%,同時又要保證用戶訂單生命周期及其查詢操作的實時性,京東采用云資料庫JCHDB作為資料分析保障的技識訓石,
分析型云資料庫JCHDB是京東智聯云基于ClickHouse打造的聯機分析(OLAP)服務,采用分布式架構,可實作多核、多節點的并行化大型查詢,其查詢性能比傳統開源資料庫快1 ~ 2個數量級,可充分滿足大促期間業務系統資料分析的需求,
京東海量訂單實時分析需要資料倉庫快速查詢與并發處理能力,用戶訂單生命周期資料實時消費kafka訊息,流經flink再寫入到JCHDB集群,該場景需要既保證資料分析的實時性,又要保證集群的性能,查詢回應時間不變,JCHDB對批量資料寫入支持的寫入速度大約為50-200MB/s,但訂單實時分析往往是頻繁小批量寫入,對集群的ZooKeeper節點不太友好,云資料庫通過優化ZooKeeper的JVM引數及云盤的并發度使用戶高頻率小批量寫入,在JCHDB集群上穩定運行,
在用戶實時寫入的場景中,會偶發出現資料寫入速度過快,資料合并(merge)不及時,造成寫入頻繁失敗,云資料庫團隊優化了對JCHDB集群的寫入操作,在能夠滿足實時查詢性能不變的前提下,盡可能地大批量低頻次寫入,充分發揮集群的高性能優勢,同時也對集群的引數進行調優,在業務系統壓力較大時也可以能夠很好地為其服務,提高了系統整體的穩定性,
JCHDB對海量實時訂單資料分析整體流程圖如下:


京東智聯云資料庫團隊需要在11.11期間平穩支撐京東集團已經上云的上千個核心業務系統,抵抗大促期間百萬QPS、PB級別資料壓力,前期的預案準備和壓測、預案演練和實時監控都是必不可少的環節,11.11大促期間需要云資源可按需擴容,完備的業務降級預案,以應對突如其來的業務壓力,
每年11.11期間大促備戰都是京東集團各部門通力合作的關鍵時刻,根據618經驗,11.11期間大促備戰共分為8個步驟:
(1)識別保障范圍;
(2)業務量預估及預檢查;
(3)預案整理;
(4)監控及報警梳理;
(5)業務壓測;
(6)預案演練;
(7)11.11值班;
(8)技術復盤,
具體大促備戰技術細節請見《京東大促備戰手冊》,
大促備戰8步流程圖:

預案整理是云資料庫保障11.11期間海量資料穩定和安全的重要環節,云資料庫RDS通過服務高可用架構、自動故障切換、彈性擴容機制等一系列資料庫級別的技術手段,保證11.11大促期間有一定的預案和回應機制,保證資料可備份,故障可切換,增量可擴容,從容應對大促期間海量資料壓力,客戶只需要關注業務本身的增長而不需要擔心資料運維與業務壓力迅猛增長帶來的煩惱,
資料可備份:京東智聯云云資料庫采用高可用架構,支持單可用區、多可用區兩種部署方式,單可用區部署在創建時,通過反親和性保證主備不能同機架,避免單機架故障導致實體不能訪問的問題,多可用區部署,將網路延遲降低到2毫秒內保證備庫復制的及時性,自研的哨兵系統支持動態擴展,可承載海量實體監控服務,通過http和tcp等多種協議對心跳上報例外的實體進行探測訪問,在滿足多數哨兵節點投票的情況下進行客觀下線發起自動高可用流程,
云資料庫高可用架構示意圖:

故障可切換:高可用架構另一個優勢是可以做到故障秒級切換,當云資料庫管理節點收到哨兵系統發來的自動高可用請求,對故障實體再次探活,從用戶子網、管理網兩個方面進行連通性確認,確保主庫真實下線后開始故障切換,為保證資料完成性首先會將備庫回放日志應用完成,然后切換vip后面的target ip,使得服務可以在短時間故障后繼續訪問,同時系統會自動創建一個新的備庫保證高可用架構,
云資料庫故障自動切換處理流程:

增量可擴容:京東智聯云云資料庫團隊和云盤團隊深度合作,將讀寫性能進行調優,充分利用云硬碟特有的彈性擴展和增量快照技術,將資料庫擴容變得簡單高效,使用云硬碟的實體可在3~5分鐘內擴容到任意存盤空間,使用本地盤的實體,支持原地垂直擴容,通過在線熱擴展的方式秒級生效,滿足用戶擴容需求,
云資料庫基于云盤擴容示意圖:


京東智聯云云資料庫部門在11.11期間不僅支持了大促訂單實時海量資料的訂單與資料分析,更有一系列標準化方案和完備的技術備戰流程支撐11.11期間海量資料和業務的挑戰,今年11.11“開門紅”期間,云資料庫整體QPS峰值達到502.4萬次/秒,資料流量峰值1183Gbps,京東智聯云扛住了流量洪峰,保障了大促期間各業務系統平穩運行,
京東智聯云云資料庫提供了從創建、配置、擴容、監控報警、性能分析等一站式資料庫服務,實作了從自助運維到自動運維的轉變,支撐了京東零售、京東物流、京東AI,京東健康等海量的核心業務,并通過一系列標準化的方案和備戰流程應對大促期間峰值資料流量和業務壓力的挑戰,同時,京東智聯云云資料庫具備的服務高可用,資料高可靠,在線彈性伸縮等特性可滿足用戶突發的峰值壓力和苛刻的業務場景,歷經多次大促考驗,是企業上云的不二之選,
推薦閱讀:
-
11.11備戰指南之DevOps篇
-
11.11備戰指南之PaaS篇
-
11.11備戰指南之安全篇
歡迎點擊【京東智聯云】,了解開發者社區
更多精彩技術實踐與獨家干貨決議
歡迎關注【京東智聯云開發者】公眾號
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/224767.html
標籤:其他
上一篇:11月參加美團面試,一面險過,二面涼涼,最侄訓是因為沒搞懂這幾個模塊:Java基礎+網路+JVM+資料庫+Spring+多執行緒并發+Redis+微服務+演算法
下一篇:深度剖析資料在記憶體中的存盤
