回顧一下,第一篇文章大白話 六問資料中臺!你想知道的都在這了!,把資料中臺是什么?為什么?有什么價值?說的明明白白,資料中臺是企業級能力復用平臺,目標是讓資料持續用起來,通過資料中臺提供的工具、方法和運行機制,把資料變為一種服務能力,讓資料更方便地被業務所使用,
今天就來點實際干貨,把企業真實資料平臺架構分享給您!相信看完這篇文章,你會真正對資料中臺有一個全景的認識與理解,從抽象過度到具體,無圖無真相,我趕緊po一張資料中臺總體架構圖:

資料中臺是在底層存盤計算平臺與上層的資料應用之間的一整套體系,屏蔽掉底層存盤平臺的計算技術復雜性,降低對技術人才的需求,可以讓資料的使用成本更低,如果用三句話來概括資料中臺的組成架構,那么一定是:
- 通過資料中臺的資料匯聚、資料開發模塊建立企業資料資產,
- 通過資產管理與治理、資料服務把資料資產變為資料服務能力,服務于企業業務,
- 資料安全體系、資料運營體系保障資料中臺可以長期健康、持續運轉,
現在您已經知道了,資料中臺離不開這幾個模塊:資料匯聚、資料開發、資產管理、資料安全、資料服務,那么趕緊跟上我的腳步潛入內部去一探究竟吧,
資料匯聚
資料匯聚,首先必然要有資料來源,有了資料來源之后,需要確定采集工具,有了采集工具之后你還要確定存盤位置,
資料來源
資料是資料中臺的核心,所以資料匯聚無疑是資料中臺的入口,企業中的資料來源極其多,但大都都離不開這幾個方面:資料庫,日志,前端埋點,爬蟲系統等,
-
資料庫我們不用多說,例如通常用mysql作為業務庫,存盤業務一些關鍵指標,比如用戶資訊、訂單資訊,也會用到一些Nosql資料庫,一般用于存盤一些不那么重要的資料,
-
日志也是重要資料來源,因為日志記錄了程式各種執行情況,其中也包括用戶的業務處理軌跡,根據日志我們可以分析出程式的例外情況,也可以統計關鍵業務指標比如PV,UV,
-
前端埋點同樣是非常重要的來源,用戶很多前端請求并不會產生后端請求,比如點擊,但這些對分析用戶行為具有重要的價值,例如分析用戶流失率,是在哪個界面,哪個環節用戶流失了,這都要靠埋點資料,
-
爬蟲系統大家應該也不陌生了,雖然現在很多企業都宣告禁止爬蟲,但往往禁止爬取的資料才是有價值的資料,有些管理和決策就是需要競爭對手的資料作為對比,而這些資料就可以通過爬蟲獲取,
這些資料分散在不同的網路環境和存盤平臺中,另外不同的專案組可能還要重復去收集同樣的資料,因此資料難以利用,難以復用、難以產生價值,資料匯聚就是使得各種異構網路、異構資料源的資料,方便統一采集到資料中臺進行集中存盤,為后續的加工建模做準備,
資料匯聚可以是實時接入,比如實時消費mysql的binlog進行資料同步,也可以是離線同步,比如使用sqoop離線同步mysql資料到hive,
技術選型
資料匯聚一般用到的技術包括:
- Flume
- Sqoop
- Datax
- Canal
資料落地
采集之后必然需要將資料落地,即存盤層,常見的有:
- MYSQL、Oracle、Tidb
- Hive、Hdfs、HBase
- Redis
- ElasticSearch
由于篇幅問題,本文不詳細說明,關于采集工具以及存盤層的選擇和使用、后續會有專門的文章介紹,請關注公眾號【胖滾豬學編程】,一個集顏值與才華為一身的女程式媛,堅持原創,用漫畫形式讓編程so easy,
資料開發
資料開發可以理解為資料匯聚和資料資產的一個橋梁,何為資料資產?資料資產是有價值的資料,而資料匯聚是原始資料,業務人員一般是難以使用的,原始資料-->有價值的資料,是需要一個程序的,那么就是讓資料開發模塊來完成這個程序,

資料開發是一整套資料加工及管控的工具,包括離線開發,智能調度,實時開發,人工智能等,
舉個例子,某公司想知道廣告投放的效益,而原始資料包括埋點資料,用戶注冊資料,用戶消費資料等,是不是需要整理一個sql,跑一個廣告效益報表呢?毫無疑問需要,那么我們就可以通過智能調度平臺,定時跑出業務需要的資料;也可以通過實時流計算,實時展示業務需要的資料,這都是屬于資料開發模塊的功能,
- 離線計算:計算推薦使用Spark\Hive,調度平臺可以使用Azkaban、Oozie、EasySchedule,
- 實時計算:推薦使用Flink、SparkStructStreaming、SparkStreaming、Storm
- 人工智能:推薦使用TensorFlow、Spark ML
由于篇幅問題,本文不詳細說明,后續文章有詳細說明離線計算、實時計算的選型、應用場景和落地方案,請關注公眾號【胖滾豬學編程】,一個集顏值與才華為一身的女程式媛,堅持原創,用漫畫形式讓編程so easy,
資料開發模塊適合物件是資料開發、演算法建模人員,提供離線、實時、演算法開發工具以及任務的管理、代碼發布、運維、監控、告警等一些列集成工具,方便使用,提升效率,他們可以依賴于資料開發模塊提供的基礎功能,快速把資料加工成對業務有價值的形式,提供給業務使用,
資料資產管理
有了資料匯聚、資料開發模塊,中臺已經具備傳統數倉平臺的基本能力,可以做資料的匯聚以及各種資料開發,就可以建立企業的資料資產體系,
這里我有必要再次強調一遍:資料資產指的是有價值的資料,這個也正是資產管理模塊需要去做的事情,如何讓資料變的有價值?第一體現在資料本身上,比如需要保證資料的質量,第二體現在業務上,偏技術的資料體系業務人員是比較難理解的,因此資產管理需要用企業全員更好理解的方式,把企業的資料資產展現給企業全員(當然要考慮權限和安全管控),
資料資產管理包括資料地圖、元資料管理、資料質量、資料血緣、資料生命周期等進行管理和展示,以一種更直觀的方式展現企業的資料資產,提升企業的資料意識,
現在你會有很多疑問,資料地圖是什么?元資料管理是什么?資料血緣又是什么?這些都是非常核心的地方,別急,后續文章我會以公司真實落地方案和應用場景對每一個模塊進行說明,先發幾張圖讓你對它們有一個初步的概念,


資料質量和安全
資料質量和安全在很多架構圖中歸屬于資產管理模塊,但是筆者認為資料質量和安全應該是貫穿整個資料中臺的,資料匯聚和資料開發的時候顯然也應該考慮質量和安全問題,所以筆者傾向于將資料質量單獨拿出來作為一個模塊,
資料質量
我們會遇到無處不在的資料質量問題,包括業務系統臟資料、資料不一致不準確等,影響資料使用和上層決策,
為什么會出現資料質量問題呢?大部分是如下幾個原因
- 開發代碼的BUG
- 資料源變更:比如由于MYSQL表結構變更,導致HIVE同步MYSQL任務失敗,
- 基礎設施和服務不穩定或資源不足:比如流量猛增的情況導致OOM
由于這些原因,會導致資料不符合以下"四性",因此存在資料質量問題:
- 完整性:指的是資料資訊是否存在缺失的狀況,可能是整個資料記錄缺失,也可能是資料中某個欄位資訊的記錄缺失,
- 一致性:是指資料是否遵守了統一的規范,資料集合是否保持了統一的格式,比如商品購買率=商品購買用戶數 / 商品訪問量,如果在不同的模型中,商品購買用戶數是1W、商品訪問量10W,商品購買率20%,那這三個指標就存在不一致,
- 準確性:是指資料記錄的資訊是否存在例外或錯誤,比如資料格式是否為正確的ip,
- 及時性:是指資料從產生到可以查詢的時間間隔,也叫資料的延時時長,
而資料質量無疑是非常重要的一部分,就算你資料再多再快,不準也無用,因此資料質量管理平臺尤為重要,資料質量管理是支持多種異構資料源的質量校驗、通知、管理服務的一站式平臺,包括資料探查、對比、質量監控、SQL掃描和智能報警等功能,資料質量監控可以全程監控資料加工流水線,根據質量規則及時發現問題,并通過報警通知負責人及時處理,
在實際生產中,可從以下幾個方面做好資料質量作業:
- 離線資料:資料是否完整、一致和準確,比如HIVE離線同步業務庫MYSQL資料,同步完需要對比資料條數,
- 實時資料:除了資料是否完整、一致和準確,還需要檢測資料是否斷流、資料是否延遲,
- 報警監控:支持短信、微信告警到對應負責人,
資料安全
資料安全的重要性不用多說,如果你把用戶資訊泄露了,嚴重會導致整個公司都倒閉,因此對于全鏈路的資料,都應該做好資料安全作業,比如應該把業務庫/日志的敏感資料進行脫敏,為身份證、銀行卡等常用的資料型別提供掩蓋脫敏策略,以及日志審計等,
資料生命周期安全可以分為以下幾個部分:
- 資料采集安全:包括資料源鑒別以及記錄等
- 資料傳輸安全:包括資料傳輸加密等
- 資料存盤安全:包括存盤介質安全、資料備份恢復等
- 資料處理安全:包括資料脫敏等
- 資料交換安全:包括資料共享安全、匯入匯出安全等
- 資料銷毀安全:包括資料銷毀和介質銷毀等
資料服務體系
前面利用資料匯聚、資料開發建設企業資料資產,利用資料管理展現企業的資料資產,但是并沒有發揮資料的價值,資料的價值體現一定是在業務層面、即資料服務體系,就是把資料變為一種服務能力,通過資料服務讓資料參與到業務,激活整個資料中臺,資料服務體系是資料中臺存在的價值所在,
資料服務體系是基于公司自身的產品和業務的,比如以電商公司為例,資料服務就包括了:精準營銷、用戶畫像、經營分析、可視化大屏等,

總結
搭建企業級資料中臺之前,務必把資料中臺全景架構圖設計好,對每一個模塊的定位、功能、作用做到心中有數,
筆者收集到10張高清資料中臺架構圖,包括阿里資料中臺全景圖、電商資料中臺全景圖等,對你理解資料中臺構建資料中臺具有重大價值!文章不便于一次發10張圖,請關注公眾號【胖滾豬學編程】回復"資料中臺" 獲取,


本文轉載自公眾號【胖滾豬學編程】 用漫畫讓編程so easy and interesting!歡迎關注!形象來源于微信表情包【胖滾家族】喜歡可以下載哦~
轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/6022.html
標籤:大數據
