目錄
0. 相關文章鏈接
1. 什么是資料倉庫
2. 什么是資料湖
3. 資料倉庫Data Warehouse與資料湖DataLake 區別
4. 湖倉一體DataLake House
5. 資料湖總結
0. 相關文章鏈接
大資料基礎知識點 文章匯總
1. 什么是資料倉庫
-
資料倉庫(英語:Data Warehouse,簡稱數倉、DW),是一個用于存盤、分析、報告的資料系統,
-
資料倉庫的目的是構建面向分析的集成化資料環境,分析結果為企業提供決策支持(Decision Support),

-
資料倉庫的特點是本身不生產資料,也不最終消費資料,
-
每個企業根據自己的業務需求可以分成不同的層次,但是最基礎的分層思想,理論上分為三個層:操作型資料層(ODS)、資料倉庫層(DW)和資料應用層(DA),

2. 什么是資料湖
-
資料湖(Data Lake)和資料庫、資料倉庫一樣,都是資料存盤的設計模式,現在企業的資料倉庫都會通過分層的方式將資料存盤在檔案夾、檔案中,
-
資料湖是一個集中式資料存盤庫,用來存盤大量的原始資料,使用平面架構來存盤資料,

-
定義:一個以原始格式(通常是物件塊或檔案)存盤資料的系統或存盤庫,通常是所有企業資料的單一存盤,
-
資料湖可以包括來自關系資料庫的結構化資料(行和列)、半結構化資料(CSV、日志、XML、JSON)、非結構化資料(電子郵件、檔案、pdf)和二進制資料(影像、音頻、視頻),

-
資料湖越來越多的用于描述任何的大型資料池,資料都是以原始資料方式存盤,知道需要查詢應用資料的時候才會開始分析資料需求和應用架構,

-
資料湖中資料,用于報告、可視化、高級分析和機器學習等任務,

3. 資料倉庫Data Warehouse與資料湖DataLake 區別
- 資料倉庫是一個優化的資料庫,用于分析來自事務系統和業務線應用程式的關系資料,
- 資料湖存盤來自業務線應用程式的關系資料,以及來自移動應用程式、IoT 設備和社交媒體的非關系資料,

- 資料湖并不能替代資料倉庫,資料倉庫在高效的報表和可視化分析中仍有優勢,
- 資料倉庫:使用良好范式規范資料,無法生成資料所需的洞察,
- 資料湖:新的原始資料存盤和處理范式,缺乏結構和治理,會迅速淪為“資料沼澤”,

4. 湖倉一體DataLake House
-
Data Lakehouse(湖倉一體)是新出現的一種資料架構,它同時吸收了資料倉庫和資料湖的優勢,資料分析師和資料科學家可以在同一個資料存盤中對資料進行操作,同時它也能為公司進行資料治理帶來更多的便利性,
-
LakeHouse使用新的系統設計:直接在用于資料湖的低成本存盤上實作與資料倉庫中類似的資料結構和資料管理功能,

- 湖倉一體LakeHouse:是一種結合資料湖和資料倉庫優勢的新范式,從根本上簡化企業資料基礎架構,并且有望在機器學習已滲透到每個行業的時代加速創新,

5. 資料湖總結
資料湖技術本質上:實作全量資料單一存盤的高級架構,可以存盤任意規模、任意型別、需求各種速度的資料,需任何預處理,消除資料采集和存盤的復雜性,加速應用資料,

注:Hudi系列博文為通過對Hudi官網學習記錄所寫,其中有加入個人理解,如有不足,請各位讀者諒解???
注:其他相關文章鏈接由此進(包括Hudi在內的各大資料相關博文) -> 大資料基礎知識點 文章匯總
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/430278.html
標籤:其他
