業務場景:有一些日志資料,記錄了采集的資訊。需要根據日志的內容,對資料進行決議、事務處理。(資料量巨大)
資料格式:json資料。
資料源保存位置:kafka
資料舉例:
例1:{"Url":"item.jd.com/11381983.html","EndDate":"2018-04-25T13:46:50.345631+08:00","FieldValueDic":{"IsDeleted":"False","AF1":"9787543699762"}}
例2:{"Url":"item.jd.com/11381983.html","EndDate":"2018-04-25T20:46:50.565631+08:00","FieldValueDic":{"IsDeleted":"False","AF1":"66666"}}
兩條資料的差異是:AF1欄位的值在不同時間獲取到的結果不一樣。
資料加工的目標:同一個url中,要實時更新每個欄位內容。
資料處理后的目標結果:{"Url":"item.jd.com/11381983.html","IsDeleted":"False","AF1":"66666"}
請大神,給一些建議哈:
1. 資料的加工程序,需要如何實作?
2. 資料如何存盤?(資料量巨大)
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/51949.html
標籤:Spark
