資料傾斜特征:個別Task處理大部分資料
后果:1.OOM;2.速度變慢,甚至變得慢的不可接受
常見原因:
資料傾斜的定位:
1.WebUI(查看Task運行的資料量的大小),
2.Log,查看log中哪一行出現OOM,查找具體哪個Stage,進而確定哪一個shuffle產生了資料傾斜,
3.查看代碼,主要是join,groupByKey,reduceByKey等代碼,
4.對資料特征分布進行分析,
轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/52393.html
標籤:大數據
