摘要:華為LakeFormation是企業級的一站式湖倉構建服務,
本文分享自華為云社區《華為云MRS支持LakeFormation能力,打造一站式湖倉,釋放資料價值】》,作者:breakDawn ,
1 背景
1.1 數倉和資料湖的概念
資料分析技術在2010~2019年間,以湖倉兩層架構技術作為主流被各資料廠商所應用,即大資料數倉+資料湖的技術形式,
- 大資料數倉:出現最早,也最完備,從單機向分布式、智能化發展,例如 Hive、華為DWS等
- 資料湖:狹義上的湖主要是云廠商參與,以統一的物件存盤底座結合云平臺水平擴展的計算資源,讓分析以資料為本、讓業務快起來,
1.2 傳統湖倉技術的挑戰
以上技術在多年的實踐中,逐步衍生出了以下的一些挑戰:
- 隨著資料和AI業務持續創新,跨集群、跨服務的資料分析成為普遍需求,然而各集群、各服務各自持有元資料,難共享,難維持一致,需要元資料ETL操作才能共享,
- 資料湖、數倉、AI資料化,導致資料雖然可以統一存盤在OBS孤島,但各服務元資料獨自管理,形成資料管理的孤島,
- 湖倉協同僅能通過外表來訪問,元資料、認證、權限都不能統一配置和管理,尤其是權限不統一嚴重阻礙了資料跨引擎共享,
上述問題導致了構建、保護和管理資料湖的程序復雜且耗時,通常需要大量開發和維護成本,解決這一問題的關鍵在于引擎元資料需要互通,只有構建滿足各種引擎需求的資料湖統一元資料服務視圖,才能實作資料共享,避免其中額外的ETL成本以及降低鏈路的延時,
1.3 湖倉一體架構的出現
為了解決上述資料湖的相關挑戰,2019年左右,業界開始出現一種新的資料架構,叫做DataLakehouse(湖倉一體),它同時吸收了資料倉庫和資料湖的優勢,能夠在存算分離的基礎上,構建統一元資料層,上層服務通過統一元資料層,便捷高效地共享資料和權限管理,因此資料分析師和資料科學家可以在同一個資料存盤中對資料進行操作,為公司進行資料治理帶來更多的便利性,
2 華為lakeFormation服務關鍵能力
華為LakeFormation是企業級的一站式湖倉構建服務,提供了資料湖元資料統一管理的可視化界面及API,兼容Hive元資料模型以及Ranger權限模型,支持無縫對接多種計算引擎(Hive、Spark等)及大資料云服務(MRS等),使客戶便捷高效地構建資料湖和運營相關業務,加速釋放業務資料價值,是數智融合的關鍵基礎設施,該產品具有以下關鍵能力:
- 豐富的元資料和資料權限管理
華為lakeformation支持Catalog和跨源管理,以及庫/表/函式的集中管理,可解決多種不同元資料型別之間互有差異的痛點,無需再引入第三方ETL進行查看和管理,并實作了統一的細粒度資料權限管理,支持跨服務/跨集群的資料共享,
- 生態開放
華為LakeFormation兼容社區介面、支持平滑對接和遷移,提供了兼容Hive/Spark/Flink/Trino社區的元資料介面,支持計算引擎平滑對接,同時兼容Ranger的權限介面,支持一次授權,統一生效,
- 大規模、高可靠
華為LakeFormation支持處理海量資料業務,具有百萬級超大規模元資料管理能力,以及多AZ的容災能力,可為業務持續性提供穩定保障,且采用Serverless架構,開箱即用,簡單易上手,
3 華為云MRS支持lakeformation創造資料價值
3.1 Lakeformation給MRS帶來的場景價值
以數智融合場景為例,當大資料用戶在MRS中創建了表T1時, 數倉用戶可通過lakeformation觀察到表T1的元資料,并通過其他MRS集群中寫入正確的資料內容,
當用戶希望通過華為MRS讀取T1資料時,可借助LakeFormation查看T1表,再進行T1資料的獲取,整個程序中減少了多個MRS集群協同運作時的復雜ETL操作,大大提升了資料使用的效率,
另外,當企業用戶的安全管理員希望對不同MRS集群中同一業務型別的元資料進行ranger權限限制時,可通過LakeFormation進行一次授權,統一生效,充分提高了管理效率,簡化管理流程,
3.2 MRS服務對接lakeformation能力展示
華為MRS用戶可基于最新上線的LakeFormation資料連接能力,實作LakeFormation實體的創建和授權,
在MRS控制臺的資料連接頁面,支持創建如下圖所示的LakeFormation資料連接:
建立完成LakeFormation資料連接后,即可在MRS集群概覽中,配置該資料連接,實作MRS和LakeFormation之間的資料關聯,
后續再根據產品資料指導完成MRS集群組件相關配置后, 即可正常使用LakeFormation統一的資料湖元資料及權限管理,實作元資料的管理互通、統一賦權,根據統一的元資料進行業務作業提交等,
當用戶在LakeFormation中針對MRS集群的catalog建立了department表后
其他用戶可在對應MRS集群的hive客戶端中觀察這個department表的元資料,
反過來,用戶通過MRS的hive客戶端創建一個employe表后,可以在LakeFormation中看到該元資料資訊,
另外也可通過資料權限能力,修改資料表的權限策略,并直接同步到MRS的權限管理組件中,
4 總結
對云端用戶而言,業務價值發現是最重要的,華為MRS支持LakeFormation后,成功降低了資料應用的成本,幫助客戶落地“存”與“算”的管理,加快推進了數智融合行程,更大程度地釋放業務資料價值,
點擊關注,第一時間了解華為云新鮮技術~
轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/543936.html
標籤:大數據
