切片與MapTask并行度決定機制
》1:并行度是什么?
在計算機體系結構中,并行度是指指令或資料并行執行的最大數目,在指令流水中,同時執行多條指令稱為指令并行
》2:為什么要提高并行度
可以最大限度地利用計算資源或存盤資源,
MapTask的并行度決定Map階段的任務處理并發度,進而影響到整個Job的處理速度,
注意:并行度不是越大越好
1G的資料,啟動8個MapTask,可以提高集群的并發處理能力,
那么1K的資料,也啟動8個MapTask,會提高集群性能嗎?
MapTask并行任務是否越多越好呢?
哪些因素影響了MapTask并行度?
MapTask并行度決定機制
資料塊:Block是HDFS物理上把資料分成一塊一塊,
資料切片:資料切片只是在邏輯上對輸入進行分片,并不會在磁盤上將其切分成片進行
1)一個job的map階段并行度由客戶端在提交job時決定
2)每一個split切片分配一個mapTask并行實體處理
3)默認情況下,切片大小=blocksize
4)切片時不考慮資料集整體,而是逐個針對每一個檔案單獨切片
注意:設定切片大小設定為100M與128M哪個好?

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/273680.html
標籤:其他
上一篇:Vue中父子組件相互傳值
