主頁 >  其他 > 超干貨 |(實戰經驗)結合公司業務分析離線數倉建設實踐

超干貨 |(實戰經驗)結合公司業務分析離線數倉建設實踐

2021-02-27 10:25:17 其他

資料中臺

前言

技術是為業務服務的,業務是為公司創造價值的,離開業務的技術是無意義的

本文章首發于公眾號【五分鐘學大資料】,公眾號內全是大資料干貨,可以關注下

業務介紹

公司屬于金融科技ToC企業,針對不同需求的用戶開發不同的產品,所以公司內部有很多條業務線,但是對于資料部門來說,所有業務線的資料都是資料源,對資料的劃分不只是根據業務進行,而是結合資料的屬性,

早期規劃

之前開發是不同業務線對應不同的資料團隊,每個資料團隊互不干擾,這種模式比較簡單,只針對自己的業務線進行數倉建設及報表開發即可,

但是隨著業務的發展,頻繁迭代及跨部門的垂直業務單元越來越多,業務之間的出現耦合情況,這時再采用這種煙囪式開發就出現了問題:

例如權限問題,公司對資料管理比較嚴格,不同的資料開發組沒有權限共享資料,需要其他業務線的資料權限需要上報審批,比較耽誤時間;

還有重復開發問題,不同業務線會出現相同的報表需求,如果每個業務方都開發各自的報表,太浪費資源,

所以對于資料開發而言,需要對各個業務線的資料進行統一管理,所以就有了資料中臺的出現,

資料中臺

我認為資料中臺是根據每個公司具體的業務需求而搭建的,不同的業務,對中臺的理解有所不同,

公司內部開發的敏捷資料中臺,主要從資料技術和計算能力的復用,到資料資產和資料服務的復用,資料中臺以更大價值帶寬,快準精讓資料直接賦能業務,提供一個統一化的管理,打破資料孤島,追溯資料血緣,實作自助化及高復用度,

如下所示:

資料中臺

以上解釋比較抽象,我們以實際專案開發來看下資料中臺的便利性,

比如我們之前做報表開發流程,首先是要資料采集,不同的資料源通過sqoop等工具采集到大資料平臺,然后進行數倉搭建,最后產出報表資料,放到可視化系統展示,最終把整個流程寫成腳本放到調度平臺進行自動化執行,

而有了資料中臺之后就不需要那么繁瑣,直接進行數倉搭建,產生報表即可,無需將精力過多放在資料源、可視化展示及調度,并且可以直觀的查看資料血緣關系,計算表之間血緣,像下面圖中,表之間的依賴關系很明確:

資料中臺

另一點,資料中臺的異構資料系統可以非常簡單的進行關聯查詢,比如hive的表關聯mysql的表,
可透明屏蔽異構資料系統異構互動方式,輕松實作跨異構資料系統透明混算,

異構資料系統原理是資料中臺提供虛擬表到物理表之間的映射,終端用戶無需關心資料的物理存放位置和底層資料源的特性,可直接操作資料,體驗類似操作一個虛擬資料庫

資料中臺額外集成可視化展示,提供一站式資料可視化解決方案,支持JDBC資料源和CSV檔案上傳,支持基于資料模型拖拽智能生成可視化組件,大屏展示自適應不同大小螢屏,

調度系統是公司內部自寫集成到資料中臺的,在撰寫完sql陳述句之后可以直接進行調度,

數倉建設

到這才真正到數倉建設,為什么前面我要占那么大篇幅去介紹公司業務及所使用的資料中臺系統,因為下面的數倉建設是根據公司的業務發展及現有的資料中臺進行,數倉的建設離不開公司的業務,

智能數倉規劃

數倉建設核心思想:從設計、開發、部署和使用層面,避免重復建設和指標冗余建設,從而保障資料口徑的規范和統一,最終實作資料資產全鏈路關聯、提供標準資料輸出以及建立統一的資料公共層,
有了核心思想,那怎么開始數倉建設,有句話說數倉建設者即是技術專家,也是大半個業務專家,所以采用的方式就是需求推動資料建設,并且因為資料中臺,所以各業務知識體系比較集中,各業務資料不再分散,加快了數倉建設速度,
數倉建設主要從兩個方面進行,模型和規范,所有業務進行統一化

  • 模型

所有業務采用統一的模型體系,從而降低研發成本,增強指標復用,并且能保證資料口徑的統一

  • 模型分層

結合公司業務,后期新增需求較多,所以分層不宜過多,并且需要清晰明確各層職責,要保證資料層的穩定又要屏蔽對下游影響,所以采用如下分層結構:

資料分層架構

  • 資料流向

遵循模型開發時分層結構,資料從 ods -> dw -> dm ->app 這樣正向流動,可以防止因資料參考不規范而造成資料鏈路混亂及SLA時效難保障等問題,同時保證血緣關系簡潔化,能夠輕易追蹤資料流向,
在開發時應避免以下情況出現:

  1. 資料參考鏈路不正確,如 ods -> dm ->app ,出現這種情況說明明細層沒有完全覆寫資料;如 ods -> dw -> app ,說明輕度匯總層主題劃分未覆寫全 ,減少跨層參考,才能提高中間表的復用度,理想的數倉模型設計應當具備:資料模型可復?,完善且規范
  2. 盡量避免一層的表生成當前層的表,如dw層表生成dw層表,這樣會影響ETL效率,
  3. 禁止出現反向依賴,如dw表依賴于dm表,
  • 規范

  • 表命名規范

    1. 對于ods、dm、app層表名:型別_主題_表含義,如:dm_xxsh_user
    2. 對于dw層表名:型別_主題_維度_表含義,如:dw_xxsh_fact_users(事實表)、dw_xxsh_dim_city(維度表)
  • 欄位命名規范
    構建詞根,詞根是維度和指標管理的基礎,劃分為普通詞根與專有詞根

    1. 普通詞根:描述事物的最小單元體,如:sex-性別,
    2. 專有詞根:具備行業專屬或公司內部規定的描述體,如:xxsh-公司內部對某個產品的稱呼,
  • 腳本命名規范
    腳本名稱:腳本型別.腳本功用.[庫名].腳本名稱,如 hive.hive.dm.dm_xxsh_users
    腳本型別主要分為以下三類:

    1. 常規Hive sql:hive
    2. 自定義shell腳本:sh
    3. 自定義Python腳本:python
  • 腳本內容規范

#變數的定義要符合python的語法要求
#指定任務負責人
owner = "zhangsan@xxx.com"
#腳本存放目錄/opt/xxx
#腳本名稱 hive.hive.dm.dm_xxsh_users
#source用來標識上游依賴表,一個任務如果有多個上游表,都需要寫進去
#(xxx_name 是需要改動的,其余不需要改)
source = {
        "table_name": {
        "db": "db_name",
        "table": "table_name"
        }
}
#如source,但是每個任務target只有一張表
target = {
        "db_table": {
                "host": "hive",
                "db": "db_name",
                "table": "table_name"
        }
}
#變數串列
#$now
#$now.date 常用,格式示例:2020-12-11

 
task = '''
寫sql代碼
'''

資料層具體實作

使用四張圖說明每層的具體實作

  • 資料源層ODS

資料源層

資料源層主要將各個業務資料匯入到大資料平臺,作為業務資料的快照存盤,

  • 資料明細層DW

資料明細層

事實表中的每行對應一個度量,每行中的資料是一個特定級別的細節資料,稱為粒度,維度建模的核心原則之一是同一事實表中的所有度量必須具有相同的粒度,這樣能確保不會出現重復計算度量的問題,

維度表一般都是單一主鍵,少數是聯合主鍵,注意維度表不要出現重復資料,否則和事實表關聯會出現資料發散問題,

有時候往往不能確定該列資料是事實屬性還是維度屬性,記住最實用的事實就是數值型別和可加類事實,所以可以通過分析該列是否是一種包含多個值并作為計算的參與者的度量,這種情況下該列往往是事實;如果該列是對具體值的描述,是一個文本或常量,某一約束和行標識的參與者,此時該屬性往往是維度屬性,但是還是要結合業務進行最終判斷是維度還是事實,

  • 資料輕度匯總層DM

資料輕度匯總層

此層命名為輕匯總層,就代表這一層已經開始對資料進行匯總,但是不是完全匯總,只是對相同粒度的資料進行關聯匯總,不同粒度但是有關系的資料也可進行匯總,此時需要將粒度通過聚合等操作進行統一,

  • 資料應用層APP

資料應用層

資料應用層的表就是提供給用戶使用的,數倉建設到此就接近尾聲了,接下來就根據不同的需求進行不同的取數,如直接進行報表展示,或提供給資料分析的同事所需的資料,或其他的業務支撐,

總結

一張圖總結下資料倉庫的構建整體流程

資料中臺

實際生產中注意事項

生產環境中操作不能像我們自己測驗時那樣隨意,一不小心都可能造成生產事故,所以每步操作都要十分小心,需全神貫注,管好大腦管住右手,

僅列出以下但不限于以下的注意事項:

  • 請勿操作自己管理及授權表之外的其它庫表;
  • 未經授權,請勿操作生產環境中其他人的腳本及檔案;
  • 在修改生產環境腳本前,請務必自行備份到本地;
  • 請確認自己的修改操作能迅速回滾;
  • 生產環境中表名及欄位等所有命名請遵循命名規則,

可關注下個人公眾號【五分鐘學大資料】,專注于大資料技術研究

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/264129.html

標籤:其他

上一篇:Shell腳本一鍵部署——Redis資料庫

下一篇:CentOS7中DDNS配置與應用

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 網閘典型架構簡述

    網閘架構一般分為兩種:三主機的三系統架構網閘和雙主機的2+1架構網閘。 三主機架構分別為內端機、外端機和仲裁機。三機無論從軟體和硬體上均各自獨立。首先從硬體上來看,三機都用各自獨立的主板、記憶體及存盤設備。從軟體上來看,三機有各自獨立的作業系統。這樣能達到完全的三機獨立。對于“2+1”系統,“2”分為 ......

    uj5u.com 2020-09-10 02:00:44 more
  • 如何從xshell上傳檔案到centos linux虛擬機里

    如何從xshell上傳檔案到centos linux虛擬機里及:虛擬機CentOs下執行 yum -y install lrzsz命令,出現錯誤:鏡像無法找到軟體包 前言 一、安裝lrzsz步驟 二、上傳檔案 三、遇到的問題及解決方案 總結 前言 提示:其實很簡單,往虛擬機上安裝一個上傳檔案的工具 ......

    uj5u.com 2020-09-10 02:00:47 more
  • 一、SQLMAP入門

    一、SQLMAP入門 1、判斷是否存在注入 sqlmap.py -u 網址/id=1 id=1不可缺少。當注入點后面的引數大于兩個時。需要加雙引號, sqlmap.py -u "網址/id=1&uid=1" 2、判斷文本中的請求是否存在注入 從文本中加載http請求,SQLMAP可以從一個文本檔案中 ......

    uj5u.com 2020-09-10 02:00:50 more
  • Metasploit 簡單使用教程

    metasploit 簡單使用教程 浩先生, 2020-08-28 16:18:25 分類專欄: kail 網路安全 linux 文章標簽: linux資訊安全 編輯 著作權 metasploit 使用教程 前言 一、Metasploit是什么? 二、準備作業 三、具體步驟 前言 Msfconsole ......

    uj5u.com 2020-09-10 02:00:53 more
  • 游戲逆向之驅動層與用戶層通訊

    驅動層代碼: #pragma once #include <ntifs.h> #define add_code CTL_CODE(FILE_DEVICE_UNKNOWN,0x800,METHOD_BUFFERED,FILE_ANY_ACCESS) /* 更多游戲逆向視頻www.yxfzedu.com ......

    uj5u.com 2020-09-10 02:00:56 more
  • 北斗電力時鐘(北斗授時服務器)讓網路資料更精準

    北斗電力時鐘(北斗授時服務器)讓網路資料更精準 北斗電力時鐘(北斗授時服務器)讓網路資料更精準 京準電子科技官微——ahjzsz 近幾年,資訊技術的得了快速發展,互聯網在逐漸普及,其在人們生活和生產中都得到了廣泛應用,并且取得了不錯的應用效果。計算機網路資訊在電力系統中的應用,一方面使電力系統的運行 ......

    uj5u.com 2020-09-10 02:01:03 more
  • 【CTF】CTFHub 技能樹 彩蛋 writeup

    ?碎碎念 CTFHub:https://www.ctfhub.com/ 筆者入門CTF時時剛開始刷的是bugku的舊平臺,后來才有了CTFHub。 感覺不論是網頁UI設計,還是題目質量,賽事跟蹤,工具軟體都做得很不錯。 而且因為獨到的金幣制度的確讓人有一種想去刷題賺金幣的感覺。 個人還是非常喜歡這個 ......

    uj5u.com 2020-09-10 02:04:05 more
  • 02windows基礎操作

    我學到了一下幾點 Windows系統目錄結構與滲透的作用 常見Windows的服務詳解 Windows埠詳解 常用的Windows注冊表詳解 hacker DOS命令詳解(net user / type /md /rd/ dir /cd /net use copy、批處理 等) 利用dos命令制作 ......

    uj5u.com 2020-09-10 02:04:18 more
  • 03.Linux基礎操作

    我學到了以下幾點 01Linux系統介紹02系統安裝,密碼啊破解03Linux常用命令04LAMP 01LINUX windows: win03 8 12 16 19 配置不繁瑣 Linux:redhat,centos(紅帽社區版),Ubuntu server,suse unix:金融機構,證券,銀 ......

    uj5u.com 2020-09-10 02:04:30 more
  • 05HTML

    01HTML介紹 02頭部標簽講解03基礎標簽講解04表單標簽講解 HTML前段語言 js1.了解代碼2.根據代碼 懂得挖掘漏洞 (POST注入/XSS漏洞上傳)3.黑帽seo 白帽seo 客戶網站被黑帽植入劫持代碼如何處理4.熟悉html表單 <html><head><title>TDK標題,描述 ......

    uj5u.com 2020-09-10 02:04:36 more
最新发布
  • 2023年最新微信小程式抓包教程

    01 開門見山 隔一個月發一篇文章,不過分。 首先回顧一下《微信系結手機號資料庫被脫庫事件》,我也是第一時間得知了這個訊息,然后跟蹤了整件事情的經過。下面是這起事件的相關截圖以及近日流出的一萬條資料樣本: 個人認為這件事也沒什么,還不如關注一下之前45億快遞資料查詢渠道疑似在近日復活的訊息。 訊息是 ......

    uj5u.com 2023-04-20 08:48:24 more
  • web3 產品介紹:metamask 錢包 使用最多的瀏覽器插件錢包

    Metamask錢包是一種基于區塊鏈技術的數字貨幣錢包,它允許用戶在安全、便捷的環境下管理自己的加密資產。Metamask錢包是以太坊生態系統中最流行的錢包之一,它具有易于使用、安全性高和功能強大等優點。 本文將詳細介紹Metamask錢包的功能和使用方法。 一、 Metamask錢包的功能 數字資 ......

    uj5u.com 2023-04-20 08:47:46 more
  • vulnhub_Earth

    前言 靶機地址->>>vulnhub_Earth 攻擊機ip:192.168.20.121 靶機ip:192.168.20.122 參考文章 https://www.cnblogs.com/Jing-X/archive/2022/04/03/16097695.html https://www.cnb ......

    uj5u.com 2023-04-20 07:46:20 more
  • 從4k到42k,軟體測驗工程師的漲薪史,給我看哭了

    清明節一過,盲猜大家已經無心上班,在數著日子準備過五一,但一想到銀行卡里的余額……瞬間心情就不美麗了。最近,2023年高校畢業生就業調查顯示,本科畢業月平均起薪為5825元。調查一出,便有很多同學表示自己又被平均了。看著這一資料,不免讓人想到前不久中國青年報的一項調查:近六成大學生認為畢業10年內會 ......

    uj5u.com 2023-04-20 07:44:00 more
  • 最新版本 Stable Diffusion 開源 AI 繪畫工具之中文自動提詞篇

    🎈 標簽生成器 由于輸入正向提示詞 prompt 和反向提示詞 negative prompt 都是使用英文,所以對學習母語的我們非常不友好 使用網址:https://tinygeeker.github.io/p/ai-prompt-generator 這個網址是為了讓大家在使用 AI 繪畫的時候 ......

    uj5u.com 2023-04-20 07:43:36 more
  • 漫談前端自動化測驗演進之路及測驗工具分析

    隨著前端技術的不斷發展和應用程式的日益復雜,前端自動化測驗也在不斷演進。隨著 Web 應用程式變得越來越復雜,自動化測驗的需求也越來越高。如今,自動化測驗已經成為 Web 應用程式開發程序中不可或缺的一部分,它們可以幫助開發人員更快地發現和修復錯誤,提高應用程式的性能和可靠性。 ......

    uj5u.com 2023-04-20 07:43:16 more
  • CANN開發實踐:4個DVPP記憶體問題的典型案例解讀

    摘要:由于DVPP媒體資料處理功能對存放輸入、輸出資料的記憶體有更高的要求(例如,記憶體首地址128位元組對齊),因此需呼叫專用的記憶體申請介面,那么本期就分享幾個關于DVPP記憶體問題的典型案例,并給出原因分析及解決方法。 本文分享自華為云社區《FAQ_DVPP記憶體問題案例》,作者:昇騰CANN。 DVPP ......

    uj5u.com 2023-04-20 07:43:03 more
  • msf學習

    msf學習 以kali自帶的msf為例 一、msf核心模塊與功能 msf模塊都放在/usr/share/metasploit-framework/modules目錄下 1、auxiliary 輔助模塊,輔助滲透(埠掃描、登錄密碼爆破、漏洞驗證等) 2、encoders 編碼器模塊,主要包含各種編碼 ......

    uj5u.com 2023-04-20 07:42:59 more
  • Halcon軟體安裝與界面簡介

    1. 下載Halcon17版本到到本地 2. 雙擊安裝包后 3. 步驟如下 1.2 Halcon軟體安裝 界面分為四大塊 1. Halcon的五個助手 1) 影像采集助手:與相機連接,設定相機引數,采集影像 2) 標定助手:九點標定或是其它的標定,生成標定檔案及內參外參,可以將像素單位轉換為長度單位 ......

    uj5u.com 2023-04-20 07:42:17 more
  • 在MacOS下使用Unity3D開發游戲

    第一次發博客,先發一下我的游戲開發環境吧。 去年2月份買了一臺MacBookPro2021 M1pro(以下簡稱mbp),這一年來一直在用mbp開發游戲。我大致分享一下我的開發工具以及使用體驗。 1、Unity 官網鏈接: https://unity.cn/releases 我一般使用的Apple ......

    uj5u.com 2023-04-20 07:40:19 more