如果不指定MapJoin或者不符合mapJoin的條件,那么HIve決議器會將Join操作轉換成Common Join,也就是說在reduce階完成Join容易發生資料傾斜,
mapJoin作業機制
- 通過mapReduce Local Task,將小表讀入到記憶體中生成HashTableFiles 上傳到Distributed Cache中,對HashTableFiles進行壓縮
- MapReduce Job在Map階段,每個Mapper從Dristributed Cache 讀取HashTableFiles 到記憶體,順序掃描大表,在Map階段直接行程Join,將資料傳遞給下一個MapReduce
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/434515.html
標籤:其他
上一篇:深入理解:分布式和集群
下一篇:剩余/長尾流量如何售賣廣告
