本文分享自華為云社區《華為云FusionInsight MRS跨湖跨倉場景下如何實作海量資料分鐘級分析》,原文作者:沙漏,
華為開發者大會2021(Cloud)于2021年4月24日-26日在深圳成功舉行,本屆大會以#每一個開發者都了不起#為主題,為眾多開發者帶來一場ICT方面的技術盛宴,
大會期間,由華為技術專家天團打造的《名師大講堂》系列專題演講,圍繞云原生、大資料、人工智能等話題,探討技術創新帶來的價值,分享創新實踐,其中,華為云FusionInsight MRS云原生資料湖HetuEngine架構師武文博,分享了“跨湖跨倉場景下如何實作海量資料分鐘級分析”主題,

傳統大資料平臺融合分析存在資料墻、資料難打通、資料協同慢三大問題
隨著大資料技術的應用和發展,資料種類越來越多,分布越來越廣,查詢場景也越來越復雜,尤其在新興業務中,需要在一個平臺上使用離線分析、實時分析、圖分析、文本分析、互動式查詢等多種引擎,多元異構的資料融合才能盤活資料,通過資料挖掘開發資料價值,發揮資料作為生產要素的作用,而傳統大資料平臺在應對資料融合分析時逐漸顯露疲態,存在如下問題:
多資料源間存在資料墻:Hive、HBase、MPPDB、Oracle….資料組件眾多,組件間形成“資料墻”;為了應對不同場景的需求,資料重復存盤到多個資料組件:Hive(歷史資料),HBase(原始資料),MPPDB(專題資料),管理復雜,耗費存盤空間;
多中心資料難以打通:各類分析應用只能基于本地資料;用外中心資料做碰撞分析需要先搬遷到本地,操作復雜,效率低;異地資料加工需要在當地部署和維護加工平臺,架構復雜;
多資料中心難以形成合力:資料集中在主中心,造成主中心負載畸高,分中心卻空閑嚴重;緊急任務需要迅速處理,卻因為分中心資料還未同步,無法分析;多資料中心和多集群的計算和擴展能力遠遠強于單個中心,但由于跨資料中心訪問技識訓本處于空白狀態,業務只能依靠單中心支撐,
簡化用數,HetuEngine統一介面,跨湖跨倉跨云協同分析從數天降至分鐘級
為了讓資料使用更簡單,跨湖協同更容易,解決上述三大問題,華為推出了、“HetuEngine”,于2019年11月發布,2020年6月正式開源(開源名稱openLooKeng),HetuEngine是統一高效的資料虛擬化引擎,與大資料生態無縫融合,實作海量資料秒級查詢;業界首創多源異構協同,實作一站式SQL融合分析,
HetuEngine具備如下特性:
? 高性能互動式查詢:傳統大資料通過Hive引擎構建即席查詢任務,查詢時間長, HetuEngine通過啟發式索引和執行計劃Cache,實作秒級查詢回應;
? 跨湖跨倉跨云融合:傳統資料分析需先統一資料格式,HetuEngine可實作不同資料格式間的join,減少資料搬遷,較傳統方案提效30%;傳統DC分析要建手工擺渡資料,HetuEngine可通過DC Connector進行連接,資料全域可視,協同耗時從數天縮短至分鐘級;
? 多引擎融合:傳統大資料在進行多引擎組件開發時,需涉及多組件定制開發,HetuEngine可統一SQL介面訪問大資料,降低用數門檻,開發提效2-10倍,
目前,華為云FusionInsight MRS云原生資料湖為政企提供湖倉一體的解決方案,一個架構可構建三種資料湖:離線資料湖、實時資料湖、邏輯資料湖,其中邏輯資料湖通過HetuEngine提供跨湖、跨倉、跨云統一訪問,減少資料搬遷,資料高效流動,全域資料分鐘級協同分析,業務上線效率提升10倍,由周級縮短至天級,
HetuEngine已在各行各業大規模使用,下面一起來看HetuEngine在金融領域的典型場景實踐,
工商銀行基于HetuEngine實作即時BI,加速金融資料湖的靈活資料探索
工行金融資料湖承載總行及分行全量原始資料,供全行資料分析師進行資料探索分析,目前日查詢量5000條,查詢資料平均10億行,最大可達百億行,伴隨數字化轉型進入深水區,多樣性業務訴求對資料融合分析提出了更高的要求,
在某些場景中,金融業務需要在資料湖內先使用批處理技術對原始資料加工成專題資料,然后跨集群搬移資料集市,再從資料集市上做BI分析,傳統大資料平臺中,SAS等工具通過Hive SQL訪問資料湖資料性能差,平均回應時間5分鐘~2小時,并發能力不足10,且湖倉資料割裂,將資料加工后加載到OLAP集市,資料鏈路長,分析效率和開發效率都很低,

該行通過華為云FusionInsight MRS云原生資料湖提供的HetuEngine,解決了資料湖與數倉間的資料協同分析問題,避免了不必要的ETL,
通過HetuEngine資料虛擬化實作湖倉互聯互通協同分析;
避免不必要的ETL流程,減少資料搬遷,
通過引入HetuEngine資料虛擬化引擎,在資料湖查詢分析方面該行提升了并發能力,僅1/5的資源即可支持45并發,峰值并發最大達200QPS,平均時延優化到8秒;在湖倉協同分析方面,通過HetuEngine打通資料湖與數倉間的資料壁壘,湖倉協同分析性能從分鐘級提升至秒級,同時減少80%的系統間資料搬遷同步,大大提升資料治理效率,
結語
HetuEngine作為統一高效的資料虛擬化引擎,打通了多資料源間的資料墻,實作高性能跨湖跨倉跨云資料融合分析,同時,HetuEngine提供統一訪問入口,屏蔽了傳統復雜的訪問介面,并統一使用 SQL 介面,降低大資料使用門檻,簡化用數!
華為云FusionInsight MRS云原生資料湖還將持續創新,做大數字世界黑土地,攜手800+ISV為客戶提供持續演進的湖倉一體解決方案,可以在一個架構上實作離線資料湖、實時資料湖、邏輯資料湖,在千行百業構筑“一企一湖,一城一湖”,
本文由華為云發布,
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/444378.html
標籤:其他
