一、什么是資料湖？

在探討資料湖技識訓如何構建資料湖之前，我們需要先明確，什么是資料湖？

資料湖的起源，應該追溯到2010年10月，基于對半結構化、非結構化存盤的需求，同時為了推廣自家的Pentaho產品以及Hadoop，2010年Pentaho的創始人兼CTO James Dixon首次提出了資料湖的概念，

資料湖概念一經提出，便受到了廣泛關注，人們發現此概念代表了一種新的資料存盤理念，海量異構資料統一存盤可以很好地解決企業資料孤島問題，方便企業資料管理與應用，

「技術概念的提出，本質都是為了業務場景服務的，是為解決某類特定場景的問題，」

隨著新一代資訊技術的發展,以及數字化轉型的深入推進,資料作為一種“無形資產”的重要性變得比以往更為凸顯，物聯網、直播、醫療等各種業務場景每天都會生成幾GB、幾百GB，甚至TB級的原始資料，面對海量資料的存盤以及結構化資料、文本、二進制（圖片、音頻、視頻）等資料的存盤應用，傳統架構的離線資料倉庫越來越“力不從心”，

file

與此同時，隨著大資料技術的融合發展，資料湖不斷演變，當前我們所討論的資料湖，已經遠遠超過了當初 James Dixon 所定義的資料湖，

根據維基的定義，資料湖是一個以原始格式(通常是物件塊或檔案)存盤數的系統或存盤庫，資料湖通常是所有企業資料的單一存盤，用于報告、可視化、高級分析和機器學習等任務，資料湖可以包括來自關系資料庫的結構化資料(行和列)、半結構化資料(CSV、日志、XML、JSON)、非結構化資料(電子郵件、檔案、pdf)和二進制資料(影像、音頻、視頻)，
file

二、袋鼠云資料湖平臺

數字經濟時代，如何有效利用不同來源、規模巨大的資料，從而加快資料價值化的呈現，把資料用活，成為很多企業的難題，

秉承「讓資料創造價值」的使命，袋鼠云進一步夯實企業數字化轉型的資料基座，今年7月的2022年產品發布會上，袋鼠云首發資料湖平臺——DataLake，

file

DataLake, 提供面向湖倉一體的資料湖管理分析服務，基于統一的元資料抽象構建一致性的資料訪問，提供海量資料的存盤管理和實時分析處理能力，可以幫助企業快速構建湖倉一體化平臺，完成數字化基礎建設，

DataLake讓業務回應更加及時，讓企業運轉更加高效，

三、DataLake的核心特性

下文為大家著重介紹DataLake的核心特性：

1.高效資料入湖

通過?研批流?體資料集成框架ChunJun，可視化的任務配置，將外部資料高效入湖，讓資料具備更高的新鮮度，同時也可對已有表hive結構進行快速掃描，一鍵生成湖表資訊，節省10x倍資料的傳輸時間和50%磁盤空間，

file

? 引入ChunJun，提供資料同步效率實作秒級快速入湖

? 全資料同步量/增量一體化，鏈路短組件少開發維護成本低

? 不影響在線業務的穩定

2.統一元資料管理

支持物理表、虛擬元資料的統一管理，支持表結構變更、時間旅行、資料檔案自動治理能力，

file

袋鼠云資料湖DataLake提供統一的在線資料目錄和離線資料治理能力，主要由以下四個部分構成：

? 元模型定義：是對元資料的抽象描述，定義了通用元模型和Iceberg元模型

? 元資料采集：支持基于PULL定時拉取和PUSH主動上報的兩種方式采集元資料，保證元資料的實時同步

? 元資料存盤：根據不同元資料的資料結構和用途，形成以Hive Metastore為主，關系型資料庫為輔的存盤架構

? 元資料應用：提供線資料目錄和離線資料治理能力，在線資料目錄可為資料湖的計算引擎提供Schema管理功能；離線資料治理包括，小檔案合并、快照清理、孤兒檔案清理能治理能力，可以有效降低資料存盤提高資料查詢效率，同時還支持表結構變更、時間旅行的能力，可以快速對湖表進行加列改列刪列，而資料無需重寫，支持對資料和Schema進行版本管理一鍵回滾