如題, 執行shuffle操作的時候,某個executor只執行4個task(一共600個task,25個executor),卻用了其它task十倍的時間,從records數量上看并沒有發生資料傾斜,會是什么原因呢?求大神給個思路。
Duration GC Time Shuffle Read Size / Records Write Time Shuffle Write Size / Records
11 min 0.2 s 19.5 MB / 1907846 1 ms 1057.8 KB / 41795
11 min 0.2 s 19.5 MB / 1907847 1 ms 1057.8 KB / 41796
11 min 0.2 s 19.5 MB / 1907682 2 ms 1059.4 KB / 41680
11 min 0.2 s 19.0 MB / 1864418 1 ms 1046.4 KB / 41355
1.4 min 0.1 s 19.6 MB / 1915753 1 ms 1070.8 KB / 42178
1.3 min 0.1 s 19.6 MB / 1915776 1 ms 1060.9 KB / 41836
1.3 min 0.1 s 19.3 MB / 1893004 1 ms 1058.2 KB / 41551
1.3 min 0.1 s 19.5 MB / 1913056 1 ms 1061.2 KB / 41777
uj5u.com熱心網友回復:
看一下上面的圖就知道了 是不是資料傾斜之類的uj5u.com熱心網友回復:
有沒有可能是節點配置的問題,集群所有節點的配置都一樣么?以前我有個任務也是這樣,有幾個節點執行task就是非常慢uj5u.com熱心網友回復:
你執行的什么任務?一般兩種可能,要么是資料傾斜,要么是機器的硬體性能不一樣(比如磁盤空間是不是快滿了,有沒有資料交換等)
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/51941.html
標籤:Spark
上一篇:VMware虛擬機使用由PCoIP協議連接不了Microsoft RDP協議后就可以正常使用了這是為什么?
下一篇:ERROR CoarseGrainedExecutorBackend: RECEIVED SIGNAL TERM
