熱身30題
1.描述一下HDFS的寫流程
2.描述一下HDFS的讀流程
3.詳細講解一下HDFS的體系結構
4.如果一個datanode出現宕機,恢復流程是什么樣的?
5.通常你是如何解決Haddop的NameNode宕機的,流程是什么?
6.描述一下NameNode對元資料的管理
7.NameNode對元資料的管理機制是什么?
8.詳細描述一下Yarn的調度流程?
9.講解一下Hadoop中combiner和partition的作用
10.你在MapReduce程序中遇到過資料傾斜問題嗎?你是如何處理的?
11.Hadoop的Shuffle分為哪幾個階段?有什么特點
12.Mapreduce的map數量和reduce數量是由什么決定的?
13.你對MapReduce做過什么優化?有什么經驗?
14.用過Combiner嗎?什么情況要使用Combiner?
15.講解一下MapReduce的流程?
16.HDFS的系統架構是如何保證資料安全的?
17.在通過客戶端向HDFS中寫資料的時候,如果某一臺機器宕機了,會怎么處理
18.你對Hadoop集群做過哪些優化?有哪些常用的優化措施?
19.寫出MapReduce求TopN的思路
20.Hadoop集群中有哪些行程?他們各自有什么作用?
21.Hadoop的job和Task之間的區別是什么?
22.Hadoop高可用HA模式如何配置?作業原理是什么?
23.安裝過集群嗎?大概需要哪幾步驟?
24.fsimage和edit的區別
25.詳細描述Yarn的三大調度策略
26.說出一些hadoop的常用shell命令
27.如何用MapReduce實作求用戶PV TOP10?
MapReduce部分深入
1.談談Hadoop序列化和反序列化及自定義bean物件實作序列化?
2.FileInputFormat切片機制
3.在一個運行的Hadoop 任務中,什么是InputSplit?
4.如何判定一個job的map和reduce的數量?
- Maptask的個數由什么決定?
6.MapTask和ReduceTask作業原理和機制
7.描述mapReduce有幾種排序及排序發生的階段
8.描述mapReduce中shuffle階段的作業流程,如何優化shuffle階段
9.描述mapReduce中combiner的作用是什么,一般使用情景,哪些情況不需要,及和reduce的區別?
10.如果沒有定義partitioner,那資料在被送達reducer前是如何被磁區的?
11.MapReduce 出現單點負載多大,怎么負載平衡?
12.MapReduce 怎么實作 TopN? 寫出關鍵代碼
13.Hadoop的快取機制(DistributedCache)
14.如何使用MapReduce實作兩個表的join?
15.什么樣的計算不能用MapReduce來提速?
16.ETL是哪三個單詞的縮寫,說說你用過的ETL場景和哪些技術點?
HDFS部分深入
- HDFS 中的 block 默認保存幾份?
2.HDFS 默認 BlockSize 是多大?
3.負責HDFS資料存盤的是哪一部分?
4.SecondaryNameNode的目的是什么?
5.檔案大小設定,增大有什么影響?
6.hadoop的塊大小,從哪個版本開始是128M
7.HDFS的存盤機制
8.Secondary Namenode作業機制?
9.NameNode與SecondaryNameNode 的區別與聯系?
10.HDFS組成架構
11.HAnamenode 是如何作業的?
YARN部分深入
1.簡述hadoop1與hadoop2 的架構異同?
2.為什么會產生 yarn,它解決了什么問題,有什么優勢?
3.HDFS的資料壓縮演算法?
4.Hadoop的調度器總結?
5.MapReduce 2.0 容錯性?
6.Mapreduce推測執行演算法及原理?
優化和其他問題
1.MapReduce跑得慢的原因?
2.MapReduce優化方法?
3.HDFS小檔案優化方法?
原文參考:《MapReduce/HDFS/YARN面試題70連擊》 答案都在文中哦,
歡迎關注,《大資料成神之路》系列文章
歡迎關注,《大資料成神之路》系列文章
歡迎關注,《大資料成神之路》系列文章
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/247972.html
標籤:其他
