論建立實時大資料平臺

李萬鴻2020-2-15

目前的大多大資料平臺都是T+1的非實時平臺，只能展示昨天的資料，而客戶普遍需要實時資料倉庫提供實時服務，那么，如何解決此問題，打造高質量、高可用、高穩定、高性能實時資料庫呢？

我們在剛剛完成湖南的一個專案中，就成功地完成了一個實時大資料平臺，使用效果良好，客戶很滿意，給予好評，實時大資料平臺需要實時增量獲取資料并進行實時處理，才能提供實時資料服務，我們采用的技術體系是這樣的：

采用Spark Delta0.7資料湖做資料倉庫DW，使用俄羅斯的新穎大資料平臺Clickhouse做資料集市DM，
全量采用Spark抽取資料到delta的ODS，并在delta生成DWS，再生成ADS到clickhouse，這里需要根據業務建立數倉模型，運行大量的sql，
對oracle資料庫采用logmnr獲取log變動的sql，對Mysql資料庫采用Canal獲取log的sql，把sql通過kafka發送到Spark Streaming，使用spark執行insert、update、delete陳述句，修改ods，再對ODS生成dws和ads,從而實時增量獲取變化的資料，
使用Springboot開發clickhouse的微服務介面，實時處理資料，提供實時資料服務，比如出差、請假資料，實時比對日期，修改出差狀態是已出差、已結束等，

Spark Delta資料湖具有事務功能，支持增刪改查，性能優異，支持Spark的sql操作，作為DW資料倉庫，clickhouse性能優異，是不同于hadoop的大資料存盤平臺，支持實時寫入和讀取，無需采用事務處理，穩定快速，速度是Mysql的800倍，實際使用，快如閃電，線性擴展，P級海量，是新出現的好產品，阿里華為都在使用，

經過實戰，我們發現，還可以進一步簡化架構，直接使用clickhouse做整個實時資料倉庫，把ODS、DWD、DWS、ADS都放在ch，這樣效果更好，簡單快捷，更為實時高效，

對這個平臺在建立資料中臺時，需要根據這個技術架構進行巧妙設計，比如使用Datax全量抽取資料到Hive，利用Hive的mysql元資料建立資料的元資料管理，再從Hive把資料抽取到ch，

從ch查詢資料，進行資料資產管理，等等，

總之，實時大資料平臺和中臺已成為新時代的大勢所趨，這是一個行之有效的方案，希望對大家有所啟迪開發更棒的實時中臺，謝謝，

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/260012.html

標籤：其他

上一篇：使用Xshell6+寶塔面板連接Linux云服務器

下一篇：Cookie和Session-學習筆記03【Session快速入門、Session細節】