我們前面采集的日志資料已經保存到 Kafka 中,作為日志資料的 ODS 層,從 Kafka 的ODS 層讀取的日志資料分為 3 類, 頁面日志、啟動日志和曝光日志,這三類資料雖然都是用戶行為資料,但是有著完全不一樣的資料結構,所以要拆分處理,將拆分后的不同的日志寫回 Kafka 不同主題中,作為日志 DWD 層,
流頁面日志輸出到主流,啟動日志輸出到啟動側輸出流,曝光日志輸出到曝光側輸出流
識別新老用戶
本身客戶端業務有新老用戶的標識,但是不夠準確,需要用實時計算再次確認(不涉及業務操作,只是單純的做個狀態確認),
啟動日志

曝光日志

頁面日志

實作邏輯
- 獲取執行環境
- 消費 ods_base_log 主題資料創建流
- 將每行資料轉換為JSON物件(臟資料寫到側輸出流)
- 新老用戶校驗 狀態編程
- 分流 側輸出流 頁面:主流 啟動:側輸出流 曝光:側輸出流
- 提取側輸出流
- 將三個流進行列印并輸出到對應的Kafka主題中
- 啟動任務
# 啟動三個消費者,分別消費 dwd_start_log、dwd_page_log、dwd_display_log 主題
$ bin/kafka-console-consumer.sh --bootstrap-server hadoop102:9092 --topic dwd_page_log
尚硅谷 源代碼
B站視頻 DWD&DIM
轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/539693.html
標籤:其他
上一篇:詳解redis網路IO模型
