🌸資料治理這個問題對于我一個小白來說,好像有點寬泛,從我自己的感覺來說,資料治理應該是有過很多資料體系建設經驗之后的一些總結,今天我們就參考一些大佬的建議,對談一談資料治理,對以往內容感興趣的同學可以參考👇:
- 第一篇: Hadoop之資料倉庫概述.
- 第二篇: hadoop數倉建設之日志采集.
- 第三篇: Hadoop數倉建設之資料同步.
- 第四篇: Hadoop數倉建設之資料模型.
- 第五篇: Hadoop數倉建設之指標管理.
??從資料治理的理念上來看,“治”不應只在事后,更應在事前,“理”考驗的是業務與技術能力的結合,從實際內容上來看,資料治理是一套方法體系+工具集,旨在幫助企業合理的架構資料、規范的定義與加工資料、清晰的管理資料、安全的應用資料,促使資料從成本中心變成價值中心,驅動企業數字化轉型,
1.資料治理是什么?
資料治理:為公司業務越來越復雜而帶來的資料越來越臟、亂、差的問題,而提出一套治理資料的方法+工具集
2. 資料治理的內容
這一部分,我將從六個方面來講解資料治理的內容,
2.1 資料標準定義
資料維度及指標需要清晰的、統一的、標準的定義,(這里的部分參考Hadoop數倉建設之指標管理的文章,我這里列舉一些例子)
- 維護業務術語庫:要做到見名知義,同名同義、不同名不同義,公司命名盡量統一,
- 表命名規范:資料分層(ods/dwd/dwm/app)、采集周期(hour/day/week/month)、全量/增量(whole/increment)
- 指標命名規范: 原子指標 = 業務術語庫 + 歷史指標名;派生指標 = 統計周期+統計粒度+業務限定+原子指標,
- 維度命名規范:公司維度名=業務系統透傳 + 業務術語庫 + 歷史欄位名
- 資料型別:bigint、string、decimal ,備注comment,
2.2 資料模型規范
按業務領域拆解業務程序,根據業務程序設計資料模型,高內聚低耦合,盡量能夠支撐未來擴展,一般采用維度建模+寬表模型,記得資料分層,一般模型確定程序如下:
- 確定業務程序
- 確定粒度
- 確定維度
- 定義指標
2.3 資料開發規范
在資料開發程序中有幾點需要注意:編程規范,代碼質量、運行穩定,SQL效率,如大資料之路中所述,程序一般分為以下幾個部分:
開發、測驗、CodeReview、[修改優化、測驗、CodeReview]、審批、上線,
2.4 資料質量管理
- 保證資料可用、權威(資料的完整性、準確性、一致性、及時性)
- 從上游采集、中間的資料加工,下游的資料服務都需要一套質量檢測工具來保障準確性、完整性、一致性、及時性,
- 指標預測(根據歷史資料預測當日指標資料與當日實際指標資料比對)
- 資料剖析
2.5 元資料管理
- 資料表的血緣關系
- 使用頻率統計(對使用頻次低的表進行管理)
- 表的生命周期(存盤需要成本,定期清理,歸檔)
2.6 資料安全
- 資料安全意識最重要!
- 對資料的安全等級、資料脫敏、表(列)級權限控制、(訪問日志)安全審計制定詳細的規則,
- 為資料的合規使用制定規范,必須在合規范圍內安全使用資料,
3. 參考資料
《大資料之路》
《hadoop構建資料倉庫》
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/350857.html
標籤:其他
