歡迎咨詢,合作! weix:wonter
名詞解釋:
CDC又稱變更資料捕獲(Change Data Capture),開啟cdc的源表在插入INSERT、更新UPDATE和洗掉DELETE活動時會插入資料到日志表中,CDC通過捕獲行程將變更資料捕獲到變更表中,通過cdc提供的查詢函式,我們可以捕獲這部分資料,
ETL資料倉庫技術(Extract-Transform-Load),它是將資料從源系統加載到資料倉庫的程序,用來描述將資料從來源端經過萃取(extract)、轉置(transform)、加載(load)至目的端的程序,使用到的工具包含(kettle、flume、sqoop),
Kettle基于JAVA的ETL工具,支持圖形化的GUI設計界面,然后可以以作業流的形式流轉,在做一些簡單或復雜的資料抽取、質量檢測、資料清洗、資料轉換、資料過濾等方面有著比較穩定的表現,
Flume是Cloudera提供的一個高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸的系統,Flume支持在日志系統中定制各類資料發送方,用于收集資料;同時,Flume提供對資料進行簡單處理,并寫到各種資料接受方(可定制)的能力,
Sqoop是Apache開源軟體,主要用于在HADOOP(Hive)與傳統的資料庫(mysql、postgresql…)間進行資料的傳遞,
適用于能與大資料集群直接通信的關系資料庫間的大批量資料傳輸,
資料集成方案對比
資料集成有兩種方案:
一種是通過ESB介面方式進行資料集成,優點是資料的時效性高,但最大的弊端是依賴于業務系統的介面改造,往往會涉及和廠商的介面費用,另一種方式就是通過ETL方式抽取資料,并通過CDC方式實作資料實時同步,優點是不依賴于業務系統,只需要獲取業務系統資料庫權限便可實作集成,
CDC+ETL資料集成方案

第一步:通過kettle抽取歷史資料到數倉中間庫,
支持圖形化的GUI設計界面,方便第一輪實施人員無業務化操作流程,穩定、高效,

第二步:業務系統鏡像資料庫啟動CDC功能,并實時同步資料到數倉中間庫,
該技術通過讀取鏡像資料庫日志檔案,決議回放資料庫操作方式,實作業務資料變更捕獲,日志讀取、決議、回放等操作都是在鏡像資料庫上進行,業務資料庫只會產生少量的I/O開銷,以最大限度地降低對業務系統的影響,

第三步:通過Sqoop從中間庫抽取歷史資料到Haoop,
使用頤東數倉配置資料目錄映射關系,自動生成跨資料庫抽取的SQL陳述句,

第四步:基礎表通過CDC功能實時同步資料到Hadoop,
基礎表為人員資訊表、資料字典表等會經常維護變更的表,
第五步:記錄表通過flume增量實時抽取資料到Hadoop,
記錄表為資料攜帶時間戳的表,該表內容變更多以修改操作狀態形式增量添加,
第六步:資料中臺
資料湖提供資料中臺服務,根據業務活動,自定義勾選資料集市所需欄位,生成ElasticSearch索引,并自動生成資料介面,
需要考慮的幾個問題
做資料集成前需要對業務表進行分析
1、哪些表是基礎表(需對原資料做物理變更操作),哪些表是記錄表
2、集成后哪些資料需要實時查詢,哪些資料可以離線查詢(生成調度任務,延時給出結果,)
資料應用

推薦閱讀:
醫院資訊集成平臺(ESB)實施、建設方案
醫院資訊集成平臺(ESB)資料集成建設方案
怎么將ETL技術落地
轉載請註明出處,本文鏈接:https://www.uj5u.com/ruanti/3101.html
標籤:領域驅動設計
