我想把一個spark dataframe內的資料與另一個dataframe比較大小,然后篩選出結果,請問我應該使用什么函式?求大神解答,感覺很簡單
uj5u.com熱心網友回復:
是df1第n條和df2中第n條比較嗎?,df1和df2資料量相同嗎uj5u.com熱心網友回復:
如果我理解的沒錯的話,這樣可以做,但需要保證兩個df內的分片數和每個分片內的資料個數一樣。f1.rdd.zip(df2.rdd).map{case Tuple2(row1, row2) =>
val data1 = row1.getInt(0)
val data2 = row1.getInt(0)
data1 > data2
}
.filter(_)
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/45834.html
標籤:Spark
