本文分享自華為云社區《【華為云Stack】【大架光臨】第7期:湖倉一體天花板,大資料一站式SQL分析技術實踐》,作者:華為云HetuEngine首席架構師 武文博,
(一)背景
早在2020年5月華為云全球分析師大會中,華為率先提出“湖倉一體”概念,并落地在華為云FusionInsight智能資料湖解決方案中,其中,HetuEngine河圖引擎承擔一站式SQL分析引擎角色,使能跨源、跨域的一體化分析落地,基于云原生架構,讓“邏輯資料湖”大規模資料融合分析提效50倍,本文將詳細闡述HetuEngine在實作一站式SQL分析所面臨的挑戰、技術架構和案例,
(二)需求和挑戰
我們調研了上千家客戶,對于一站式SQL分析場景,客戶提出了一些需求和期望:
-
跨域邏輯協同,通過計算去中心化,支持高度靈活、復雜拓撲的算力網路,并充分復用現網的硬體設備和資料資源,節省投資;
-
在跨源方面,打通資料源,將零散的資料,以高性價比的方式實作融合分析,減少ETL,節省時間成本;
-
云原生已是2021年的熱詞之一,大資料也不例外,跨源、跨域邏輯協同的資料虛擬化引擎也需要云原生的加持,以實作基于云的彈性伸縮、動態多租、統一入口;
正是因為政企業務爆發式增長,使其對大資料平臺的性能要求越來越高,挑戰也隨之而來,
- 跨域要高效
在跨域協同計算時,臨時性任務多,需靈活敏捷的SQL化跨域協同能力,以較小的資料成本和較短的耗時協同分析散落在不同機房、不同資料中心、不同資料源的資料,要求有如下特點:
? 一條SQL陳述句跨地域執行
業界現有的一些跨域協同方案并不是以SQL陳述句來實作的,而是在SQL引擎之上建設的一層非SQL介面的任務調度框架,這類實作方案技術難度較低,但是對于業務用戶來說使用復雜,靈活性差,不可避免地存在多次資料落盤和拷貝,實時互動式查詢場景無法滿足時效性要求,
通過一條SQL陳述句實作跨地域分布式執行,從技術角度看,帶給了業務用戶優秀的用戶體驗和極低的學習門檻,介面簡單擴展靈活,相應地,跨域協同SQL引擎本身就必須要克服一系列由此產生的困難與挑戰,
? 提供近似本地使用體驗
要實作跨域SQL訪問,需要考慮的主要限制條件如下:
-
網路條件:跨域要面臨的網路條件,往往要比本地網路條件劣化很多倍,客戶經常碰到如高時延、低帶寬、網路抖動、網路代理瓶頸、網段隔離等挑戰;
-
SQL語法:如何在SQL陳述句層面很方便的表達出想要訪問的資料中心下面的資料源的表?如何確保跨域SQL陳述句寫法能夠與本地SQL陳述句無縫銜接?
-
資料與系統安全:如何確保本地域以外的SQL用戶只能感知到本地管理員對外開放的資料串列?如何做到本地域的計算資源、網路資源不被外部SQL請求所耗盡?
第1個問題直接關系到跨域協同的性能體驗,第2個問題直接關系到跨域聯邦SQL能否易落地、容易被業務用戶所接受,第3個問題決定了跨源聯邦SQL引擎能否成功上線,
如果跨域聯邦SQL引擎無法做到高吞吐(單服務IP埠達到1GB/s的傳輸能力)、高性能(1000公里距離內100ms回應,億行資料秒級拉取),那么很難認為這個跨域聯邦SQL引擎達到真實商用水平,
? 動態感知不同地域的元資料
在早期的業界跨域方案中經常提到集中管理的全域元資料,這類方案的本質還是依靠中心化的主SQL引擎+集中存盤的中心元資料來實作跨地的資料訪問,通過繁瑣、復雜的全域元資料采集、匯總來回避了改造傳統SQL引擎內核所面臨巨大技術挑戰,相應地,這類方案上線后,需要持續投入管理運維人力進行跨地域的元資料匯總,每次上線或者下線一個資料中心都會牽一發而動全身,成為一個浩大、曠日持久的改造工程,
為了徹底解決上述方案的弊端,新一代的跨域聯邦SQL引擎要具備跨域動態感知元資料的能力,客戶通過簡單部署配置即可直接上線,無需介入類似元資料管理等與業務強耦合的復雜準備作業中,反之,通過修改配置即可讓一個Region/DC脫離聯邦SQL查詢網路,

- 跨源要易用
跨源分析中首要問題是如何實作多源異構SQL化分析,目前,市場上真正滿足客戶需求的引擎并不多,主要是因為:
? 一條SQL訪問多個異構資料源
要實作這個目標,降低客戶使用大資料的門檻,簡而言之要做4個“一”:一個SQL陳述句,一個元資料模型,一個訪問入口,一個鑒權體系,既要實作對多源異構資料的統一SQL查詢和分析,又要保持與傳統資料庫的SQL語法體驗一致,
? 跨源保障高性能
在跨源訪問方面,要解決兩個關鍵問題:
-
如何盡可能地降低被訪問的資料源的出口資料量和資料傳輸損耗;
-
如何盡可能地降低跨源SQL引擎的計算作業量和匯入資料量,
? 資料源資訊可自定義,可實時重繪,關鍵敏感資訊自動加密
這一點的必要性對于業務管理員來說不言而喻,但是往往被開源社區或尚未達到商用水平的跨源引擎所忽略,要做好這一點,需要從部署、元資料管理、服務化等多個角度進行建設,從對外介面型別看,跨域、跨源分析引擎要具備兩個型別的介面:
? 業務介面
面向普通SQL用戶,提供統一的服務化訪問入口,屏蔽后方的多個計算實體細節資訊,提供與傳統OLAP引擎一致的業務互動體驗;
? 管理介面
面向平臺、業務管理員,提供常見的運維管理配置服務,涉及——用戶認證、資源調配、資料源資訊集中管理、業務訪問權限定義等能力,這些業務配置資訊需要完善的后臺系統提供加解密管理和持久化存盤,
上述兩個介面面向不同的角色開放,不同的角色的用戶感知不到其它角色的行為,從而實作資訊隔離和高水平的服務化,
總之,理想的效果是——不論用戶正在訪問的是跨域的資料,還是跨源的資料,我們都要讓業務用戶的使用體驗與傳統的OLAP引擎體驗保持一致,這也正是資料虛擬化力求達到的效果,
- 引擎云原生化
近年來,云原生技術方興未艾,一大批云原生的數倉、OLAP引擎、湖倉一體引擎正在迅猛發展,有影響力的分析引擎都已搬遷上云,其中海外提供云原生大資料服務,比較有代表性的有Databricks、Snowflake等,其市值已達千億美元,

我們認為,一款云原生的分析引擎至少要具備以下能力:
? 租戶資源隔離化
云原生狀態下,要求實作租戶之間資源完全隔離,通過資源隔離消除運行風險,提升資料安全,
? 資源策略靈活化
靈活的資源策略有助于降低運營成本,常見的資源策略包括——動態資源分配實時生效,支持動態、靜態部署方式,單個租戶實體要支持無損業務的彈性伸縮,
? 故障快速自動恢復,在線滾動重啟
云原生動態部署在帶來靈活性的同時,也造成了單個實體的實際運行物理位置的隨機性,萬一發生故障時,需要整個系統具備自動檢測、自動重新部署實作快速恢復,同時,在線滾動重啟也是當下云原生引擎的標配,
(三)資料虛擬化引擎HetuEngine
隨著大資料平臺在各行業的快速發展,大資料集群呈現零散式建設、湖倉割裂、來回搬遷等新挑戰,客戶對于跨域高效、跨源易用、云原生化提出了更高的要求,
傳統方案普遍涉及了下圖中的1、2點,對于單企業、小規模業務場景而言,在業務發展初期基本可滿足需求,但是對技術開發、維護人員的技能要求較高,一旦業務發生變化就需要重新定制開發,手工變更部署方案,易造成資訊泄露,

為了打造一款成熟、可商用的虛擬化引擎,我們需要站在客戶實際使用場景角度出發,系統性、端到端地設計一款安全、易用、易運維、可擴展的資料虛擬化引擎,
實踐經驗表明,上圖中3、4、5、6點是決定一款資料虛擬化引擎能否滿足業務實際需求、能否高效上線業務的關鍵,
HetuEngine架構
HetuEngine是華為云FusionInsight團隊自研的一款高性能分布式SQL查詢&資料虛擬化引擎,可與大資料生態無縫融合,實作海量資料秒級查詢;支持多源異構協同,使能資料湖內/湖間/湖倉一站式SQL融合分析,

圖 HetuEngine架構圖
我們完全基于云原生2.0的技術理念實施了HetuEngine頂層架構設計,這一點決定了HetuEngine從一開始就是為云服務化、“湖倉一體”而生,統一的云服務層在帶來極簡操作和極致運維體驗的同時,也為引擎層的多實體、彈性伸縮、跨域跨源統一訪問入口、資料虛擬化等能力奠定了軟體架構基礎,
面向跨域、跨源、云原生三大維度,HetuEngine分別具有如下架構優勢:
- 跨域聯邦分析:SQL化、一致性體驗、動態感知
HetuEngine對外提供標準、統一的SQL訪問入口,同時通過后臺管理介面的實作在線、實時、無損業務的運維變更操作,并保證所有變更操作能夠快速同步到每一個計算實體,從而保證了SQL入口的一致性體驗,

與此同時,跨域聯邦查詢場景中,每個地域的HetuEngine能夠做到自動感知其它地域對外開放的元資料資訊,按需動態實時感知和獲取,從而降低了跨域元資料同步的安全風險和負載壓力,
HetuEngine內置提供了高性能安全加密傳輸通道,使得跨地域間網路通信問題迎刃而解,該跨域聯邦SQL分析方案安全高效,適用于公網、專網等多種網路型別混合組網,支持穿透NAT,支持億級資料秒級跨域,支持去中心化跨域組網,支持受控對外開放資料,跨域協同效率提升50倍,
- 跨源協同分析:低門檻、高性能、安全可靠
HetuEngine提供可視化的資料源資訊管理頁面,實作一站式資料源資訊配置和實時在線生效,避免了每次做資料源資訊變更需要重啟計算引擎實體的麻煩,針對不同資料源型別,HetuEngine會針對性提供不同的性能優化配置引數,并支持設定與具體業務環境需求強相關的個性化配置引數,通過前臺頁面一站式完成配置,免去了95%的運維負擔,

在性能方面,HetuEngine加強了對DWS、ES等資料源的計算下推能力,實作了相對開源軟體提速5倍的高性能跨源協同分析效果,同時,HetuEngine完成了對Hive SQL語法兼容性增強,在支持100% Presto SQL語法的同時,還可支撐90%的HQL業務平滑遷移,
- 云原生加持:彈性伸縮、動態多租、統一入口
得益于云原生技術架構,HetuEngine允許管理員通過后臺介面進行可視化的統一運維操作,從而完成一鍵式動態部署、多計算實體在線滾動重啟、人工/全自動觸發的計算實體彈性伸縮(無損業務),完成多租戶的資源配置變更及動態生效,

HetuEngine的統一服務化入口可以很容易幫助用戶實作SQL客戶端的接入和業務請求的提交,極大降低了業務用戶的學習成本和開發成本,同時也幫助業務應用開發人員實作將業務層與后臺服務層解耦的目的,為后期的持續擴容與升級變更操作帶來的隱形福利,
HetuEngine的多計算實體架構天然具備橫向擴展的優勢,可以滿足“湖倉一體”對海量資料、多實體、高并發的長遠需求,

(四)最佳實踐
隨著金融業的快速發展和大資料技術生態的不斷完善,近年來工行與華為持續聯合創新,通過引入FusionInsight智能資料湖,工行大資料技術從僅對大資料批量加工,已延展到大資料實時計算、聯機查詢、資料可視化、安全管控等金融應用場景,不斷提升工行服務物體經濟的能力,傾力打造服務于經濟高質量發展的數字工行, 目前工行已建成同業最大的單集群,已部署上線的FusionInsight MRS云原生資料湖和DWS云資料倉庫集群規模達2000+節點,支撐了300+總行應用、分行及集團子公司的平臺化大資料應用開發,日均承載批量計算作業數達20萬+,強力支撐了行內、行外的金融資料服務,

中國工商銀行大資料平臺支撐了全行約13000名資料分析師的互動式查詢業務場景,原先通過離線計算引擎來支撐,分析師普遍反映回應時間過長,從2021年工行開始引入互動式查詢引擎(HetuEngine),使得分析師靈活查詢的回應時間從平均1000秒降低至20秒,提效50倍,目前已將HetuEngine面向全行推廣,
(五)寫在最后
在業界現有的跨域、跨源分析引擎中,能夠同時做到以下幾點的,當前已知的僅有HetuEngine,這得益于:
? 三位一體:跨域、跨源、互動式查詢一體化;
? 云原生:動態多租戶、彈性伸縮、統一入口;
? 規模商用:提供端到端的安全解決方案;
目前,HetuEngine已經在政務、金融、運營商、大企業行業規模交付,對原有互動式查詢、跨源跨域分析業務提升倍數,并驅動客戶業務持續創新,
未來,HetuEngine還將在自學習優化、SQL安全、物化視圖、索引、存盤等維度,繼續構筑核心競爭力,加速客戶“湖倉一體”架構落地和數字化轉型,
華為云FusionInsight MRS云原生資料湖提供一個架構實作三種資料湖,即離線資料湖,一站式提供AI、BI多引擎,規模最大支持6萬+;實時資料湖,分鐘級供數,全自助分析,時效從T+1到T+0;邏輯資料湖,HetuEngine實作跨湖、跨倉協同提效50倍,目前FusionInsight MRS已經用于60多個國家和地區,聯合800+ISV服務于3000+政務、金融、運營商、泛企業客戶,助力客戶構建一企一湖,一城一湖,在2021年12月27日發布的IDC中國2021H1大資料市場報告中,華為云FusionInsight取得市場第一,更多資訊請關注華為云社區,
本文由華為云發布,
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/452017.html
標籤:其他
上一篇:如何構建成功的微服務架構【翻譯】
下一篇:紅黑樹-添加
