導讀
本文將介紹網易數帆在資料治理方面的一些總結和思考,文章將圍繞以下三點展開:
1. 資料治理解決了什么問題
2. 資料治理體系
3. 淺談資料治理的實作
01資料治理解決了什么問題
首先看一下資料治理解決了什么問題,可以總結為六個方面:
1. 資料開發與資料治理脫節
在許多企業中存在這樣一個現象,就是對于資料的整個開發和治理往往是一個先污染后治理的程序,資料治理往往不會融入到資料生產的程序當中,與資料開發、建模、運維安全這些環節都會存在脫節的現象,因此,對企業來說進行資料治理的時候就需要對現有的系統和流程進行改造,必然會面對很高昂的成本,所以我們需要將資料治理活動前置,在資料生產環節就加入資料治理的活動,將資料開發和資料治理一體化結合起來,
2. 煙囪式的資料開發
在網易早期,數倉建設更多的是業務部門各自內部進行維護的,沒有上升到組織架構層面進行規劃,不同的業務部門,因為都有資料分析的需求,就導致各部門會存在各種零散分裂的小數倉,給企業內部的資料管理和共享造成很大的問題,煙囪式的資料開發,還容易造成指標口徑不一致、資料重復開發、資料無法共享等問題,在中臺建設前也缺少統一的規范建模的標準,
3. 不同平臺缺少統一的管控
在我們的客戶里面就有一個比較典型的例子,因為其IT架構存在很多不同的平臺系統,系統從后端到前端也是相互獨立緊耦合開發,導致整個系統很臃腫,建設效率又很低,對于業務的回應也不夠快,并且存在大量的重復建設作業,因此,他們將建立統一標準的大資料開發與治理平臺作為集團戰略,將各個獨立系統中存在的大量歷史資料及任務進行統一管理,但是,由于這些獨立系統的存在成為了他們做中臺建設的一個阻礙,如果要去做中臺,不僅需要去承擔高昂的資料遷移成本,面對遷移程序中可能出現的資料遺失問題,還要去培養人員去掌握新的開發和分析工具,所以,他們對開發與治理平臺的訴求就很高,
4. 治理程序缺少可量化的監控
治理程序實際上是很難衡量的,如果忽視了可視化的成果展示,會導致領導或者客戶不易感知治理的成果,從而無法認同治理團隊的作業,所以,在整個治理程序中,除了要有階段性的目標,還要有可視化效果的呈現,比如發布了多少元資料,這些元資料在哪里能夠被看到;存在多少質量稽核規則、又有多少規則被參考了,
5. 對資料的成本和價值缺少精細化的管理
隨著企業業務的高速發展,資料量呈指數增長,相應的資料成本也是急劇增加的,因此,企業需要識別有價值資料,去除無用資料,然后沉淀資料資產,對企業來說,就需要進行資料成本和價值精細化的管理,如何去做好企業公共資源的復用,如何基于ROI的方式去沉淀資料資產等,對整個資料團隊是很大的考驗,這也是資料治理要解決的問題,
6. 資料治理缺少倍訓
資料治理實際上是一個長期可持續的程序,因此,我們在治理活動的各個環節是需要做到倍訓的,去保證治理的結果切實落地,比如質量稽核規則,如果只是單純配置好質量規則,通過質量稽核規則找出一堆問題,而沒有將其具體落實到某些人或者是落實到相關人員的KPI上,這樣就會導致質量問題可能今天犯了之后,沒人關注,后面還會反復出現,最后質量規則就形同虛設,資料治理還是要明確責任人,完成問題的反饋、記錄,從而倍訓整個流程,
02資料治理體系
資料治理體系,要根據實際的客戶(企業)場景、行業場景,結合資料治理產品工具,去建立相應的流程,將制度建立在流程的基礎上,管理建立在制度的基礎上,形成全鏈路的資料治理體系,在實際實施程序中,要圍繞資料治理產品工具、流程、制度及管理去展開資料治理,
03淺談資料治理的實作
1. 資料治理工具——整體方案
在治理工具方面,要將治理和開發一體化,將整個治理流程貫穿到各個子產品,去沉淀一套全鏈路的資料治理體系,
在初期,先設計后開發,我們會有相關的一些模塊作為支撐,做完之后要對資料進行評估,通過不同的維度去考察治理結果,并進行可視化展現,整個程序依據于一整套基于企業組織架構而建立并完善的資料治理流程,資料在對外展示并被使用的時候,通過資料資產地圖開放給相關的用戶、業務人員、運營人員、開發人員,讓他們能夠從里面了解元資料、了解資料資產的分布情況、資料血緣等內容,
2. 資料治理工具——開發與治理一體化
資料開發和治理一體化,指的是將資料治理的程序融入到資料開發的全生命周期當中,強調“先設計、后開發、先標準、后建模”的原則,其目標就是將整個資料治理的流程與開發全生命周期相融合,在資料開發程序中去完成資料治理,通過指標和資料標準的定義,實作“規范即設計,設計即開發,開發即治理”的開發治理一體化理念,
如圖上展示,在不同的階段,將資料模型、資料傳輸、資料安全、資料質量等形成規范化的定義,使整個治理程序與開發程序結合起來,
3. 資料治理流程——規范建模
在整個設計階段進行標準化的規范建模,能夠保證資料模型的規范化,提高資料資產水平,提升資料的質量,可以結合國家的標準、行業的標準、企業自身標準,以及各個業務部門的核心資料去打造一套貼合自身業務發展的資料標準體系,通過資料元和資料字典去承載,也可以通過對各條業務線的分析去梳理出相關的原子指標,派生指標以及復合指標,通過指標系統對指標進行管理,去完成資料規范定義,助力資料模型規范設計,解決指標口徑的計算口徑不一致,指標定義的不一致,資料來源不一致等指標可信度低的問題,最后在資料標準和指標規范下構建模型,從而沉淀我們的業務元資料,
4. 資料治理流程——元資料資產治理元資料可分為業務元資料、技術元資料和管理元資料,首先,要去完善業務元資料和技術元資料以及管理元資料,要將它們補充完整,然后根據元資料的治理發布流程將元資料發布上線,同時配合資料資產中心的資產健康診斷,并基于 ROI 的資料資產精細化管理,對資料資產的健康情況和使用情況進行實時的觀察,識別有價值的資產,
5. 資料治理流程——湖外資料治理
資料治理的流程,還包括湖外資料的治理,湖外的資料可能來源于業務資料庫,比如 MySQL、Oracle 等,針對這類資料,可以首先通過資料治理的管理員根據治理需求向 IT 部門發起登記資料源操作,資料源可來源于不同的業務系統,登記資料源后就可以進行元資料采集、注冊,注冊后,就可以根據完善度來決定是否需要治理,最終將資料發布為資產,供業務人員瀏覽和使用,
6. 資料治理流程——湖內資料治理
相比于湖外資料,湖內資料的治理也是通過注冊、治理、審批、發布這幾個步驟進行的,首先,進行注冊,注冊后,經過業務治理專員或者技術治理專員不斷完善業務和技術元資料,向申請人提交發布申請,最終由資料治理管理員審核發布,發布后的資料資產可提供給業務人員瀏覽和使用,如果在使用程序中發現有資料問題,也可再次發起資料治理或者是資料下線,
7. 資料治理制度——開發規范制度
資料治理的制度包含很多,比如開發規范制度,資料要如何去準備?元資料怎么去梳理?有沒有模板?建模時主題域的命名?表和欄位的命名有沒有相應的規范要求?資料在進行調度的時候,如何配置?怎樣去運營等等,這些都會有相應的規范,
8. 資料治理制度——指標管理制度
指標管理制度,要明確指標的名稱、計算口徑以及業務口徑,這些都需要有一定的規范,只有有了規范,才能夠保證統一化、標準化,因此,可以有相應的指標管理制度,通過指標管理制度去保障體系化的管理,然后,可以根據這個制度去構建相應的指標模板,去梳理指標的基本資訊、口徑定義,完善指標的血緣關系等,
9. 資料治理制度——資料質量管理制度
資料質量管理制度,包含事前規則定義、事中質量監控、事后量化分析和問題追溯,在事前需求和規則定義的時候,通過事先梳理好的質量規則模板,通過自定義的一些規則,或者通過標準推薦的規則構建模板、構建規范,將質量規則配置完成之后,交與資料治理團隊監控,如果發現質量問題,則要完成質量報告,對問題進行追蹤改進以及相關的績效考核,
10. 資料治理管理——組織架構
在管理層面要構建專門的部門來負責資料治理的作業,完善相關的組織架構,進行權責分擔機制,比如有相關的資料治理管理作業組,有相關的資料治理管理員以及資料治理專員,資料治理管理員是作為集團資料治理作業的管理人員,對所有待治理的資料進行負責,推進和協調各部門的業務資料治理,資料治理專員是分派在各個部門,由各個部門內部確定的專門的一線人員,可對自己部門的資料進行治理,
11. 資料治理管理——運營與沉淀
資料治理不是一個臨時性的作業,從資料生命周期的全程序到治理體系的健康運行都需要一個長效的治理機制來保證,進行體系化的資料治理,發現問題、解決手段、持續運營、持續沉淀要形成倍訓,
如圖,圍繞資料資產的倍訓,首先是發現問題,我們會圍繞著成本、標準、質量、安全、價值這樣五個方面去明確需要進行治理的內容,然后,基于需要治理的內容,配套專題優化治理工具,比如對無用資料推薦下線、對表生命周期的管理、對計算任務的優化等,最后,在治理程序當中持續有抓手,包括推送整個專案、個人的資產賬單、資料治理的紅黑榜、資產健康分和個人的任務優先級和資源預算申請掛鉤等舉措,此外還需進行一些持續性的運營,比如舉辦資料治理大賽,業務線專項治理活動等,來持續運營和打磨產品的能力,
本期分享嘉賓:傅正
- 網易數帆
- 大資料產品專家
- 前華為高級培訓講師,現網易大資料產品專家,主要負責資料開發、資料治理與資料應用方向,多年ICT領域的產品及培訓交付經驗,具備在金融、零售、制造等多行業的豐富專案實踐能力,
限時開放中!免費試用網易資料治理產品
轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/546380.html
標籤:其他
上一篇:1 MySql基礎介紹
