repartition()在具有新磁區的不同節點之間重新分配資料并coalesce執行相同的操作,但它保留一些原始磁區而不進行改組并在其中添加其他磁區。
為什么它總是在 spark 中說,同樣磁區的資料將被更快地處理。有什么理由會這樣,為什么在資料集分布不均勻的情況下它不會?
什么停止not evenly distributed datasets處理更快?
有任何想法嗎 ?
uj5u.com熱心網友回復:
資料的“磁區”由“任務”作為“階段”的一部分進行處理。一個階段有許多并行運行的任務。Spark“應用程式”由多個階段組成。下一階段只有在前一階段完成后才能開始。
大磁區有更多資料需要處理,因此需要更長的時間。在某些情況下,資源完全(非)必要地持有更長的時間。
轉載請註明出處,本文鏈接:https://www.uj5u.com/yidong/457316.html
