文章目錄
什么是資料倉庫?
功能
應用
特點
面向主題
資料集成
穩定性
時變性
資料倉庫與資料庫的區別是什么?
核心流程有哪些?
什么是維度?
什么是指標?
建模
為什么要建模?
怎么建模?
分層
為什么要分層?
怎么分層?
??????
-
什么是資料倉庫?
-
功能
-
為了滿足OLAP場景下的資料管理需求
-
存盤:管理,講公司中所有資料進行統一化的存盤管理
-
處理:講各種原始資料進行規范化處理,提供給各個需求
-
-
本質:是一種分布式,統一化,規范化的資料管理設計模型
-
-
應用
-
滿足企業中所有資料統一化的儲存,通過規范化的資料處理來實作企業的資料分析應用
-
-
特點
-
面向主題
-
數倉(資料倉庫):公司中所有的資料全部通過資料采集或者資料同步進入資料倉庫中
-
資料集市主題域:一般是按照部門進行劃分
-
資料主題:各個應用對應的主題
-
-
-
-
-
資料集成
- 存盤整個公司所有資料
- 數倉不產生資料,也不使用資料
- 僅實作存盤和加工
-
穩定性
- 沒有資料更新和洗掉業務,
- 所有的事實都不允許被洗掉
-
時變性
- 會不斷的將新的資料同步到資料倉庫中
- 會不斷的將新的資料同步到資料倉庫中
-
-
-
資料倉庫與資料庫的區別是什么?
-
資料庫和資料倉庫都是一種資料管理模式
-
MySQL和Hive實作資料管理模式的工具
-
-
-
-
核心流程有哪些?
-
ETL:過濾、補全、轉換
-
分層:決定資料的規范性
-
建模:決定了資料存盤的方式,表的設計
-
-
重點應用:通過維度來描述指標
-
什么是維度?
- 維度是用于描述事實的角度
- 不急于組合維度進行分析得到,這個指標是有沒有意義的,
-
什么是指標?
- 對資料分析的結果,是一個度量值,也成為了指數
- 功能:通過指標來衡量事實的結果,反應事實好壞,
- 常用指標 PV;UV,IP,跳出率,二跳率,平均訪問時長,平均訪問次數
-
-
-
建模
-
為什么要建模?
-
性能:良好的模型能幫我們快速查詢需要的資料,減少資料的IO吞吐
-
成本:減少資料冗余、計算結果復用、從而降低存盤和計算成本
-
效率:改善用戶使用資料的體驗,提高使用資料的效率
-
改善統計口徑的不一致性,減少資料計算錯誤的可能性
-
-
怎么建模?
-
-
分層
-
為什么要分層?
- 為了決定資料倉庫中處理資料的流程
- 規范資料近日到應用整體資料被處理的程序
-
怎么分層?
-
???????一般分成3層 ODS DW APP ???????
實作:用過建立不同資料庫來實作分層

-
美團數倉設計
-
https://tech.meituan.com/2017/05/26/hotel-dw-layer-topic.html
-
-
攜程數倉設計
-
https://mp.weixin.qq.com/s/CfxNcMJIl6irunrTNTs25g
-
-
-
???????
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/286552.html
標籤:其他
