海量監控資料處理如何做，看華為云SRE案例分享-有解無憂

摘要：openGemini的設計和優化都是根據時序資料特點而來，在面對海量運維監控資料處理需求時，openGemini顯然更加有針對性，

IT運維誕生于最早的資訊化時代，在資訊化時代，企業的資訊化系統，主要為了滿足企業內部管理的需求，通常是集中、可控和固化的煙囪式架構，傳統IT運維，以人力運維為主，在單點式和煙囪式的架構中，的確起到了非常重要的作用，

我們知道，傳統運維模式關注的是單臺IT設備的故障率或單套應用系統的可用性，系統與系統之間，設備與設備之間，是彼此孤立的，因此產生的資料量也相對有限，

但進入到云計算時代之后，IT的邊界被完全打開，更多的聯接、更多的設備、更多的服務，使得系統規模開始變得越來越大，隨著監控粒度越來越細，監控資料呈現出爆炸式增長的態勢，每天將產生上百TB的資料，如何對如此海量的資料進行處理成為華為云SRE面臨的一大難題

業務背景

華為云SRE基礎設施監控系統是一個先進的平臺，用于監控和管理華為云在全球各個region的基礎設施，該系統需要實時監測各種資源，包括網路、存盤、計算、安全和各個云服務，

現狀

業務誕生之初，適逢“大資料”時代，Hadoop作為批量離線計算系統已經得到了業界的普遍認可，并經過了工業上的驗證，所以HBase具備“站在巨人肩膀之上”的優勢，其發展勢頭非常迅猛，HBase還是一種NoSQL資料庫，支持水平擴展和大規模資料的存盤能力，故選型HBase，當然內部也基于HBase做過很多優化，比如縮短row key，減少Key-Value數，按照時間維度分表，將單行多列變為單行單列，

痛點

隨著華為云業務擴展，特別是近些年，華為云在全球布局的速度也突飛猛進，所要監控的設備也越來越多，顆粒度越來越細，查詢場景也逐漸豐富，HBase明顯已經無法滿足當前業務需要，問題主要體現在以下幾點：

HBase不支持高階聚合查詢，時間范圍太大的查詢性能比較差，無法渲染圖表
HBase沒有特定的壓縮演算法，應對每天上百TB資料，存盤成本長期居高不下
HBase部署需要依賴第三方組件HDFS和Zookeeper，運維成本高

技術選型

為了解決這些痛點，我們將目光投向時下流行的時序資料庫（Time-Series Database），首先在DBEngines排名前20的開源時序資料庫中甄別，排除商業品類、開源協議不友好的，初步擬選了InfluxDB、Druid、Prometheus、OpenTSDB幾款，經過技術對比，InfluxDB只有單機版，功能和性能受限大，故排除，OpenTSDB底層存盤仍然是HBase，存盤成本問題仍然存在，故排除，Prometheus不適合在大規模資料場景下使用，Druid是一個實時分析型的資料庫，用于大規模實時資料匯入、快速查詢分析的場景，基本滿足需求，但在時空聚合查詢場景時延相對較大，徘徊之際，了解到華為云開源的openGemini，經過測驗對比，openGemini在資料壓縮效率、讀寫性能方面優勢明顯，經過和openGemini社區團隊交流后，最后選擇了openGemini存盤全網華為云SRE基礎設施監控資料，