想請教一下各位大蝦
如果一個RDD有2個partitions 分布在2個機器上 (一個機器上一個),
如果每個磁區中的資料的key的hash值等于所在磁區的index,那么在hash的程序中能保證物理機器中沒有資料移動么?
比如在磁區0上資料是 (0,0), 在磁區1上是(1,1),
那么hash re-partitioning的時候 能保證 (0,0) 和 (1,1) 還在原來所在物理機器上么?
有什么方法能保證這樣么? 因為這樣 在實際操作中可以節省網路消耗
先謝了
uj5u.com熱心網友回復:
這個 應該 是SPARK自己決定的吧。RDD內方法你看看。轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/95765.html
標籤:Spark
