有這樣一個資料:5個用戶,每個用戶記錄了10個時間點的位置資訊,針對單用戶要求把相鄰時間點位置相同的欄位進行去重處理,僅保留連續重復資料的第一條。實作相鄰時間點位置是不同的,不同用戶之間是可以重復的。
目前思路是資料設計方案:二維 三維都可以
二維資料:用戶 位置 時間
用戶1 位置1 時間1
用戶1 位置1 時間2
用戶2 位置3 時間1 等等
三維: 就是把二維表拆成不同用戶
如果是用二維的資料,我該怎么進行資料處理實作連續重復欄位去重,重點是只處理連續的,只能用spark處理。
求大神幫忙指點以下,非常感謝。
uj5u.com熱心網友回復:
使用row_number(),函式,按照用戶,位置進行分組,按照時間進行排序,生成相同用戶,相同位置下對應的的順序編號,然后再按照順序編號進行刷選,row_number也是Oracle
上的函式,網上資料很多的,找找看看就可以了
uj5u.com熱心網友回復:
非常感謝,我去查查資料
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/116528.html
標籤:分布式計算/Hadoop
上一篇:python
下一篇:循序漸進學運維
