業務場景
有一些日志資料,記錄了采集的資訊。需要根據日志的內容,對資料進行決議、事務處理。(資料量巨大)
資料格式
json資料。
資料源保存位置
保存位置:kafka
資料舉例
例1:{"Url":"item.jd.com/11381983.html","EndDate":"2018-04-25T13:46:50.345631+08:00","FieldValueDic":{"IsDeleted":"False","AF1":"9787543699762", "GoodReviewRate":"0.929",”UPC”:”NULL”}}
例2:{"Url":"item.jd.com/11381983.html","EndDate":"2018-04-25T20:46:50.565631+08:00","FieldValueDic":{"Title":"依法治國青少年讀本","AF1":"66666","Price":"-1"}}
兩條資料的差異是:
1. 第一條資料中 ,采集到了IsDeleted、AF1、GoodReviewRate、UPC,四個欄位。
2. 第二條資料中,采集到了Title、AF1(這個欄位結果有更新)、Price三個欄位。
資料加工的目標
同一個url中,要實時更新每個欄位內容。
資料處理后的目標結果{"Url":"item.jd.com/11381983.html","IsDeleted":"False","AF1":"66666","GoodReviewRate":"0.929",”UPC”:”NULL”, "Title":"依法治國青少年讀本","Price":"-1"}
問題
1. 資料的加工程序,需要如何實作(資料決議、事務處理)?
2. 資料如何存盤?(資料量巨大)
轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/90953.html
標籤:數據倉庫
上一篇:kettle抽取sybase
