摘要:本文主要介紹GaussDB(DWS)云原生數倉架構、產品能力,幫助開發者快速了解GaussDB(DWS)云原生數倉相關資訊與能力,
本文分享自華為云社區《直播回顧 | GaussDB(DWS)云原生數倉技術決議》,作者:胡辣湯,
在本期《GaussDB(DWS)云原生數倉技術決議》的主題直播中,我們邀請到華為云EI DTSE技術布道師/華為云數倉GaussDB(DWS)云原生首席SE 王傳廷,針對GaussDB(DWS)云原生數倉架構、產品能力,與開發者和伙伴朋友們展開交流互動,幫助開發者快速了解GaussDB(DWS)云原生數倉相關資訊與能力,
數倉需求變化及技術架構演進
云計算時代,資料倉庫的需求和技術架構也在不斷地發生變化,數倉需求主要分為兩類場景:
- 公有云場景,主要是指用戶直接購買的公有云廠商的云服務,公有云用戶的需求更多關注在產品成本、擴容靈活彈性、資料共享,
- 線下部署場景,這類場景可能是用戶購買的硬體部署了一個軟體,也可能是用戶在機房搭建了內部私有云環境,線下部署場景主要需求是:系統穩定、負載之間有較好的隔離能力、資料共享、彈性,
數倉技術架構演進由最初Shared Storage共享存盤到Shared Nothing分布式計算架構再到現在的存算分離架構,
- 存算分離架構特點:存盤類似shared storage,計算類似shared nothing,每個節點只處理自己分片的資料,
- 存算分離架構優點:計算存盤分層擴展,計算節點擴容無需資料重分布,速度快,靈活;存盤節點按需擴容,無限容量;計算節點之間無需協調機制,只需保證計算節點只處理自己分片的資料,
GaussDB(DWS)云原生數倉架構決議
華為云GaussDB(DWS)歷經12年技術演進,2011年開始技術預研,2014年首次上市,通過不停地迭代和演進,從2017年開始大規模商用,當前全球已累積1700+大客戶,針對數倉發展趨勢,GaussDB(DWS)也在不斷地演進,2022年推出實時數倉、IoT數倉,應對實時資料的接入,滿足實時計算場景需求,2023年即將發布的云原生數倉,支持存算管三層分離、湖倉一體、數智融合,具備優異性能和極致彈性能力,
GaussDB(DWS)云原生數倉產品能力
一、極致彈性
GaussDB(DWS)云原生數倉極致彈性,具備管理層、計算層、存盤層三層分離獨立靈活伸縮,一數多用、按需配置優勢,
存算管三層分離:存盤層,支持私有格式和開放格式,開放格式主要支持ORC/Parquet/Hudi等大資料生態的主流格式,私有格式是GaussDB(DWS)的存盤格式,資料存盤在OBS上,在私有格式上具備更好的性能,計算層,我們抽象了Virtual Warehouse概念(簡稱VW),也叫邏輯集群,VW是一組計算單元,可以靈活地添加或者釋放,資料不屬于任何一個VW,僅僅只是系結關系,管理層是指將集群管理查詢優化與GaussDB(DWS)資料節點和GTM層體現出來,
一數多用:資料存盤在OBS上,任意邏輯集群均可承載讀寫負載,多邏輯集群間共享資料,無需拷貝,提供跨邏輯集群建的實時和近實時兩種資料共享方式,
按需配置:通過邏輯集群隔離不同業務,性能穩定,業務承載量或并發量線性擴展,可以進行讀寫分離或多讀多寫,
二、湖倉一體
之前使用大資料寫資料,需要創建外表,指定外表欄位,并與大資料欄位對應,需要訪問多少張表,就創建多少張表,當外表數量只有一兩張時維護也比較容易,外表越來越多時,維護成本也隨之增加,如果資料湖中欄位發生了變化,外表也需要更改,GaussDB(DWS)云原生數倉在湖倉一體方面做了能力增強,降低維護成本,在這里我們引入新的概念External Schema,我們通過創建一個 External Schema的形式,自動對接Hive Metastore元資料管理,直接訪問資料湖的資料表定義,不再需要創建外表,提升體驗,降低維護代價,
同時我們支持外表和內表進行融合查詢,混合查詢資料湖和數倉內任意資料,查詢一步到位輸出到數倉內/資料湖,無需額外資料中轉拷貝,資料湖享受數倉的極致查詢性能,
三、數智融合
打通資料倉庫與AI生產線,通過OBS共享開放格式資料,為AI生產線提供強勁的資料處理能力和靈活的供數方式,提供SQL語法,在資料分析程序中提供驅動AI訓練、應用AI推理的能力,直接呼叫部署的推理服務端點,靈活性好;將模型二進制部署為UDF,性能好,
四、優異性能
存算分離后,我們通過三個方面保證數倉性能,分別是:快取、近資料計算(計算下推)、IO調度,
- 快取:將熱資料優先快取到本地,本地磁盤快取空間夠用的情況下,可以體驗到和本地表一樣的性能,GaussDB(DWS)在每個計算節點自帶磁盤快取,可以將OBS的資料快取到本地,提升性能,
- 近資料計算:將冷資料優先計算下推到存盤層,降低讀取資料量,
- IO調度:充分利用云存盤帶寬優勢,彌補其相較傳統MPP的高延遲劣勢;單查詢充分利用資源,為并發查詢提供穩定、可預測的性能保證;多級資源池靈活配置,
歡迎感興趣的開發者觀看直播回放,了解詳細資訊,更多關于GaussDB(DWS)產品技術決議、云原生數倉產品新特性的介紹,請關注GaussDB(DWS)論壇,直播安排將第一時間發布在GaussDB(DWS)論壇熱門活動版塊,
論壇鏈接:https://bbs.huaweicloud.com/forum/forum-598-1.html
點擊關注,第一時間了解華為云新鮮技術~
轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/549361.html
標籤:大數據
上一篇:EasyMR 安全架構揭秘:如何管理 Hadoop 資料安全
下一篇:spark 流處理的幾個實體
