《大資料湖最佳實踐》讀書筆記-有解無憂

本書論述了資料湖基礎知識，如基本架構、與數倉的對比、資料存盤、元資料處理、資料訪問控制等，讀完能夠讓你對資料湖技術有一個概述性的認知，

筆記按章節整理如下：
在這里插入圖片描述

一資料湖概述

資料湖的演化成熟度：資料水洼、資料池、資料湖、資料洋，陷入資料黑洞的資料沼澤，
規劃資料湖：針對不同人群的資料服務層以及對應的資料權限訪問控制，原始區、產品區、作業區、敏感區
資料查找：在減少資料冗余的同時能夠讓使用者快速查找到自己需要的資料，保持資料完整性，建立資料索引目錄，類似于Hadoop NameNode

基于云的資料湖搭建優勢

動態擴展方便，彈性計算易于應對短暫峰值計算（如雙十一訂單處理）
維護簡單
節約成本

二歷史背景

資料分析的歷史背景ROLAP-》OLAP

數倉常見生態

ETL、ELT
MPP（大規模并行處理）
維度表（物體）與事實表（物體的活動事件）
維度建模：kimball工具、維度一致性、維度整合與拆分、維度層次
緩慢變化維的處理：覆寫、插入行、插入列
列式存盤、資料聯邦、資料虛擬化工具（物體表與視圖）

資料組織與管理

資料質量管理工具與規則：針對標量、欄位、記錄、資料集、跨資料集等不同資料粒度進行資料規則限定以保證攝入資料符合預期，而在涉及到缺失值時亦會用到資料剖析技術以進行資料可用性分析
MDM主資料管理：物體資料清單如客戶、訂單物體，在資料合并時要確保兩邊資料物體屬性相統一
資料建模工具：針對OLTP和OLAP兩種典型場景進行不同方向的建模分析，如OLTP的外鍵約束（參考完整性）、OLAP的反范式設計
元資料倉庫運用場景：資料資產搜索、資料血緣（資料朔源）、影響分析
資料治理工具：記錄資料用途和血緣，定義訪問管理、檔案或元資料和生命周期管理策略，

資料消費

分析師運用不同的資料分析工具如BI、報表對資料進行分析運用，
常見的統計、預測模型（如機器學習演算法）分析

三大資料與資料科學概述

Hadoop生態體系及其在資料湖中的運用

Hdfs、Hive、Hbase
Schema on read
資料安全：Ranger（Apache）、Sentry*
資料采集：Sqoop、Flume
資料治理：Atlas、Navigators

機器學習

可信資料集的重要性
演算法模型可解釋性
變更管理：資料預測漂移檢測與模型變更

四建立資料湖

基于Hadoop體系建立資料湖的好處

Hadoop有一套得天獨厚的資料處理生態體系：從資料存盤、計算、治理、任務調度都有原生契合的工具組件，
成本低廉
模塊化
極具拓展性
松散Schema耦合

問題解決

資料水洼擴散導致資料孤島
建立中心化資料湖

注意點

充分利用Hadoop大資料體系優勢，同時結合當下新興適用技術
充分利用資料科學理念

策略

遷移已有資料到資料湖
為新專案建立資料湖
建立資料治理中心
注意在不同的階段選擇適用的策略

五資料倉庫與資料湖

數倉的基本功能及其局限性

以高性能分析目的資料組織
以一致性方式分析多源資料
保持歷史分析準確性：緩慢漸變維的維護（拉鏈表）
ETL中資料定義整合
多源資料整合
數倉作為歷史資料庫丟失了許多細節，而考慮到不同的資料粒度又增加了資料管理成本

遷移到資料湖及其演化

利用快照方式維護緩慢漸變維，支持靈活Schema
資料湖包含比資料倉庫更多、更原始的資料
Lambda架構適用于資料湖不同場景的資料分析
資料湖資料亦可作為數倉、業務資料存盤、實時運用程式的資料源
資料湖可提供比數倉更加靈活、多樣化的服務

六自助服務優化

傳統數倉模型方式下分析師需要向IT傳達業務邏輯，從需求分析、開發，再到最終報表出爐需經歷漫長專案周期，時效性受限，而自助服務將IT瓶頸從中移除，

業務分析程序及其注意點

資料查找與理解
- 企業資料歸檔
- 沒人理解所有資料而導致了部落知識，需要眾包部落知識并提供給每個人，同時自動為資料集添加注釋
- 資料質量問題：（參照）完整性，ID唯一性，資料型別、區間、格式合理性等
- 資料血緣：起源、處理程序追溯，業務級、資料集（技術、轉換）、欄位級血緣，Filter、Join、Function，
- 資料監管：DMA、DBA
資料預置
- 獲得資料使用權限或物理資料獲取
- 建立資料目錄，讓需要的用戶申請訪問，屆時檢查對應權限組
預處理
- 記錄資料處理環節的每一程序并使其運用于資料血緣管理
- Trifacta資料預處理工具
分析與可視化
- 新的資料分析作業流下，IT從門衛向店主的角色轉變，
- IT需要開發的是各種具有可讓分析師定制化的資料服務工具，將各種服務進行以封裝、使得業務開發變得簡單到非IT人員（分析師）也可以自行定制資料分析服務，回想一下2019年阿里系的面試，他們做的各種UI其實就是在提供這種服務，
在自助服務下，關鍵業務依舊由IT遵循嚴格的數倉模型開發，但一些非關鍵業務由分析師自行靈活DIY，

七資料湖架構

資料規劃與磁區

原始區：通常用于保存采集的原始資料（Landing），也稱為臨時區，通常存放在檔案系統，一般專業人員才能訪問，
產品區：由原始區經過簡單資料預處理，其可用于各專案組直接取用，此處資料一般不發生變更，若有變更也是由作業區攝入而后回寫到產品區，此處通常有較好的檔案說明和元資料管理
作業區：也稱開發、專案區，大多數資料分析發生在這里，通常反映了組織架構，因為保存了大量的資料中間結果，此處的檔案往往不完善，同時其也是最大的一個區，
敏感區：由于監管或業務需求而創建，僅有授權人員才可訪問，涉及到PII Column資料還需要加密（脫敏），參考DataMask，注意Join key為PII時需要采用相同的加密策略確保得到相同加密結果，

多資料湖

由于受監管、組織壁壘、可預測性等劃分限制，需要將不同區域、來源、分析目的的資料分放在不同的資料湖里，從而導致了多資料湖，
在條件允許的情況下，合并多資料湖可以減少資料冗余和資料管理成本，

云上資料湖

云上資料湖可以獲得更加靈活彈性的計算，1000臺機器用2小時和10臺機器用200個小時的價格是一樣的，以更低的成本、更高的效率應對峰值資料計算
缺點：資料計算需求較為穩定，資料機密性、安全性要求較高的情況下不建議使用云，私有云或可考慮？

虛擬資料湖

資料聯邦：以視圖的方式提供一個統一的介面，攝取、處理來自不同系統的資料，以目前的技術，大資料場景下幾乎不可能實作
大資料虛擬化：創建一個龐大的資料目錄，可將來自不同源的資料物理復制到資料湖中進行處理，而后生成Hdfs檔案，相對于資料聯邦，多了資料復制，
消除冗余：資料冗余與完整性往往互相對立，而是用虛擬資料湖的邏輯目錄方式有可能解決這一問題；資料在需要時才會匯入到資料湖，根據資料目錄可以準確識別各個資料集市的功能，對一些不再需要的、可合并的資料集進行下線，

八資料湖元資料

資料組織問題

資料湖中存在大量資料，若是沒有對這些資料進行很好地分類編排，資料的取用困難，很容易形成資料沼澤，而面對百萬級以上的資料，人工編排成本高昂且難于實作，自動化資料打標、目錄編排就變得尤為重要，
憑借元資料需要了解到資料概況
分析師需要知道資料來源

技術元資料

資料剖析：一種資料模型可以有多種表結構描述方式，清晰的表結構定義及欄位命名尤為重要
剖析結構資料：如何無損的決議Json、Xml這種具有層次結構的資料？

業務元資料

詞匯表
分類法：運用門類綱的自上而下分類法，在針對大眾分類方式中，同一種類別在不同的團隊、行業角色中可能具有不同的名詞，可以按照不同的領域創建標簽，如此一個資料湖中可能針對一份資料集有著多個標簽，
物體論：類似于ER圖，表述了物體及其互相之間的關系，如擁有、一一對應、屬于等等

資料標簽

自動編目：利用Alation、Informatica、Waterline Data等工具結合機器學習進行自動打標，必要時由人工進行審核，上述工具可爬取Hadoop集群和關系資料庫資料，進而為每一個欄位建立指紋資訊（名稱、內容、剖析資訊）
核心資料進行人工打標

九資料訪問控制

資料湖資料存盤特性

資料變更相對頻繁
資料平滑匯入：通常資料的匯入不會做太多的處理，而是原樣存盤
敏感資料處理：個人資訊（PII）之類的資料需要進行加密保護
資料挖掘的探索性：在預測性資料研究中，資料分析人員有時并無法準確知道哪些資料是自己需要的，故而急需完善資料目錄的支持

授權與訪問控制

人工授權訪問：資料往往分門別類放置，其應該讓需要的人有權限進行訪問，專案運用中常常使用權限組管理，如專案ID，需要的人員可以通過申請權限組賬號登錄許可，從而獲取對應資料目錄樹下所有資料的訪問權限，而海量資料下，人工處理成本高昂，且很難保證資料集中敏感資料得到了相應處理，
資料標簽控制：由于上述人工授權的高成本及高風險性，衍生了基于標簽的橫向資料訪問控制；資料入湖未分類之前進入隔離區，而后由人工設定標簽策略運用于Cloudera Navigator或Apache Ranger，進而實作基于標簽的資料訪問控制，而人工檢測PII資料是困難的，故引入自動化敏感資料掃描，如運用Informatic、Waterline Data和Dataguise等工具自動對匯入資料進行掃描并添加標簽，

資料脫敏與主權

為了能夠針對訪問敏感資料，需要對其進行適當加密，如透明加密、顯式加密
透明加密：寫入磁盤時自動加密，讀取時自動解密，可防止有人繞過權限控制直接訪問磁盤資料，
顯式加密：看到的資料也為密文
資料主權與法規：有的國家不允許機構將本國資料復制、存盤到別國，

自助服務訪問管理與資料預制

資料擁有者將資料描述資訊發布到資料目錄中，分析運用人員進行檢索，并在需要的時候提交資料訪問申請，再由資料擁有者和相關管理人員審核通過后授予訪問權限，
因為上述資料訪問申請者需要的可能只是資料表在某段時間的某些列，故將所需資料暴露即可，通常采用視圖的方式減少資料復制帶來的額外存盤成本，
一般而言，無額外操作的情況下，訪問權限申請到期后自動關閉，

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/287351.html

標籤：其他

上一篇：貝葉斯分析思路通俗講法

下一篇：nat模式原理/linux如何通過nat模式上網

《大資料湖最佳實踐》讀書筆記

一 資料湖概述

基于云的資料湖搭建優勢

二 歷史背景

資料分析的歷史背景ROLAP-》OLAP

數倉常見生態

資料組織與管理

資料消費

三 大資料與資料科學概述

Hadoop生態體系及其在資料湖中的運用

機器學習

四 建立資料湖

基于Hadoop體系建立資料湖的好處

問題解決

注意點

策略

五 資料倉庫與資料湖

數倉的基本功能及其局限性

遷移到資料湖及其演化

六 自助服務優化

業務分析程序及其注意點

七 資料湖架構

資料規劃與磁區

多資料湖

云上資料湖

虛擬資料湖

八 資料湖元資料

資料組織問題

技術元資料

業務元資料

資料標簽

九 資料訪問控制

資料湖資料存盤特性

授權與訪問控制

資料脫敏與主權

自助服務訪問管理與資料預制

一資料湖概述

二歷史背景

三大資料與資料科學概述

四建立資料湖

五資料倉庫與資料湖

六自助服務優化

七資料湖架構

八資料湖元資料

九資料訪問控制