主頁 > 軟體設計 > 20201204-周測知識點(Hadoop)

20201204-周測知識點(Hadoop)

2020-12-07 12:48:24 軟體設計

題目:

  • 一、Hadoop架構有哪些組件?分別有什么作用?
  • 二、HDFS有哪些組件?分別有什么作用?
  • 三、HDFS的優缺點是什么?
  • 四、HDFS讀寫流程是什么?
  • 五、MapReduce的優缺點是什么?
  • 六、MapReduce的shuffle流程是什么?
  • 七、Combiner是做什么的?一定要有嗎?使用Combiner時有什么限制條件?
  • 八、Map端的join和Reduce的join的使用場景分別是什么?有什么區別?
  • 九、Yarn的組件有哪些?分別有什么作用?
  • 十、簡述一下Yarn的Job提交流程
  • 十一、Hadoop自帶的作業調度器有哪幾種?分別是什么?


一、Hadoop架構有哪些組件?分別有什么作用?

1.HDFS-分布式檔案系統,解決分布式存盤
2.Mapreduce-分布式計算框架
3.Yarn-分布式資源管理系統
4.Common-支持所有其他模塊的公共工具程式

了解:Hadoop1.x中的Mapreduce同時處理業務邏輯運算和資源的調度,耦合性較大,并且存在只能運行Mapreduce程式這個問題,而在Hadoop2.x中,不僅分離了Mapreduce部分功能,將資源調度和運算分開,而且增加了Yarn,Yarn只負責資源調度,Mapreduce只負責運算,Yarn不僅能運行Mapreduce程式,還能運行Spark程式,Yarn目前發展成一個通用的資源調度框架,很多計算框架都支持在Yarn上運行,

二、HDFS有哪些組件?分別有什么作用?


Client(客戶端):
1.檔案上傳至HDFS中的時候會進行檔案切分,切分成一個一個的block,然后存盤,
2.查詢檔案時,會與NameNode進行互動,獲取檔案位置資訊,
3.會與DataNode互動,讀取或寫入資料,
4.client提供一些命令來管理HDFS,
5.client可以通過一些命令來訪問HDFS,

NameNode(元資料節點):
1.管理HDFS的名稱空間,
2.管理資料塊映射資訊及副本資訊,
3.處理客戶端的讀寫請求,

DataNode(實際存盤資料塊的節點):
1.實際存盤的資料塊,
2.執行資料塊的讀、寫操作,

Secondary NameNode:
1.輔助NameNode,分擔其作業量,
2.定期合并FSimage和Edits,并推送給NameNode,
3.在緊急情況下,可輔助恢復NameNode,


三、HDFS的優缺點是什么?

優點:
1.高容錯性
2.適合大資料處理
3.流式資料訪問,能保證資料的一致性
4.可構建在廉價的機器上,可以多副本機制,提高可靠性

缺點:
1.不合適低延時資料訪問
2.無法高效的對大量小檔案進行存盤
3.不支持并發寫入、檔案隨機修改場景


四、HDFS讀寫流程是什么?

讀資料流程:
在這里插入圖片描述

1.客戶端創建DFS(DistributedFileSystem)實體,
2.DFS向NameNode發起RPC(遠程程序呼叫)請求,獲得檔案開始部分或者全部block有序串列及DataNode地址,如果客戶端本身就是一個DataNode,那么它將從本地讀取檔案,
3.DFS會向客戶端回傳一個支持檔案定位的輸入流物件FSDIS(FileSystemDataInputStream),用于客戶端讀取資料,
4.客戶端呼叫read()方法,DFSIS(DistributedFileSystemInputStream)就會找出離客戶端最近的DataNode并連接,
5.DFSIS依次讀取第一批次的bock,如果第一批block都讀完了,重復2~5,直至所有批次的block全部讀取完成,
6.關閉DFSIS、FSDIS、DFS,

注意:NameNode只回傳客戶端請求包含塊的DataNode地址,并不是回傳請求塊的資料,最終讀取所有的block都會合并成一個完整的檔案,


寫資料流程:
在這里插入圖片描述

1.客戶端通過DFS模塊向NameNode請求上傳檔案,NameNode檢查目標檔案是否已經存在,父目錄是否已經存在,
2.NameNode回傳是否可以上傳,如果不能上傳,則會回傳例外,
3.如果可以上傳,那么客戶端就會切分并請求第一個block上傳到哪個DataNode服務器上,
4.NameNode回傳3個DataNode節點,假定分別為:dn1、dn2、dn3.
5.客戶端通過FSDOS(FileSystemDataOutputStream)模塊請求dn1上傳資料,dn1收到請求后會繼續呼叫dn2,然后dn2呼叫dn3,將這個通信管道建立完成,
6.dn1、dn2、dn3逐級應答客戶端,
7.客戶端開始王dn1上傳第一個block(先從磁盤讀取資料放到一個本地記憶體快取),以packet(64KB)為單位,dn1收到一個packet就會傳給dn2,dn2傳給dn3;dn1每傳一個packet,會放入一個應答佇列等待應答,
8.當一個block傳輸完畢后,客戶端再次請求NameNode上傳第二個block的服務器,(重復3~7)


五、MapReduce的優缺點是什么?

優點:
1.易于編程
2.可擴展性
3.高容錯性
4.高吞吐量

缺點:
1.難以實時計算
2.不適合流式計算
3.不適合有向圖(DAG)計算


六、MapReduce的shuffle流程是什么?

MapTask:
1.收集Mapper發送資料到環形緩沖區
2.環形緩沖區資料量達到80%時溢位
3.將所有小檔案磁區、排序、合并成一個大檔案
4.大檔案按照磁區、鍵值雙重排序

ReduceTask:
1.所有MapTask結束后ReduceTask啟動,并主動從所有的MapTask端,拉取屬于該磁區的資料的每個Maptask一個檔案
2.根據排序合并所有MapTask端的小檔案為一個大檔案
3.分組提取合并后資料資訊,一個分組一個Reducer


七、Combiner是做什么的?一定要有嗎?使用Combiner時有什么限制條件?

1.Combiner是一個特殊的reduce,它的存在就是提高當前網路IO傳輸的能力,也是MapReduce的一種優化手段,能減少Reducer提取資料的傳輸負載,
2.不一定要有,
3.要有相同的key才能使用Combiner,

八、Map端的join和Reduce的join的使用場景分別是什么?有什么區別?

map端join:
1.使用場景:大檔案+小檔案
2.map端快取多長表,提前處理業務邏輯,這樣增加map端業務,減少reduce端資料的壓力,盡可能減少資料傾斜,

reduce端join:
1.使用場景:大檔案+大檔案
2.shuffle階段出現大量的資料傳輸,效率很低
3.合并操作是在reduce階段完成的
4.map節點的運算負載很低,資源利用率不高


九、Yarn的組件有哪些?分別有什么作用?

ResourceManager(RM,全部資源管理器):
1.接收和處理客戶端(RunJar)的請求
2.管理NodeManager
3.啟動和管理AM(ApplicationMaster)
4.分配和調度資源

NodeManager(NM):
1.管理單節點資源
2.處理來自RM、AM的命令

ApplicationMaster(AM):
1.資料切分和劃分
2.程式資源的申請以及內部map和reduce任務的分配
3.任務的管理和容錯

Container:
1.對計算機資源(CPU、記憶體、網路、硬碟等)的封裝和抽象


十、簡述一下Yarn的Job提交流程

1.job提交:
· 客戶端呼叫job.waitForCompletion()方法,向整個集群提交MapReducejob
· 客戶端向ResourceManager申請一個job ID
· ResourceManager給客戶端回傳該job資源的提交路徑(臨時目錄+job ID生成的路徑)
· 客戶端提交jar包、切片資訊和組態檔到指定的資源提交路徑
· 客戶端提交完資源后,向ResourceManager申請運行MRAppMaster

2.jon初始化
· 當ResourceManager收到客戶端的請求之后,先將該job添加到容量調度器的佇列當中
· 通知一個空閑的NodeManager領取到該job
· 該NodeManager創建Container,并產生一個MRAppMaster
· 然后下載客戶端提交的資源到本地

3.任務分配
· MPAppMaster向ResourceManager申請多個運行MapTask任務資源
· ResourceManager將運行MapTask任務分配給另外兩個NodeManager,然后分別領取任務并創建容器

4.任務運行
· MRAppMaster向兩個接受到的任務的NodeManager發送程式啟動腳本,這兩個NodeManager分別啟動MapTask,然后MapTask對資料磁區排序等操作
· MRAppMaster等待所有MapTask運行完畢后,向RsourceManager申請容器,運行ReduceTask
· ReduceTask拷貝MapTask相應磁區的資料,然后進行操作
· 程式運行完畢后,MRAppMaster會向ResourceManager申請注銷自己

5.進度和狀態更新
· Yarn中的任務,將其進行和狀態(包括Container)回傳個MRAppMaster,客戶端每秒向MRAppMaster請求進度更新,展示給用戶
(時間間隔可以通過mapreduce.client.completion.pollinterval來設定)

6.job完成
· 除了向MRAppMaster請求job進度外,客戶端每5秒都會有通過呼叫waitForCompletion()來檢查job是否完成
· job完成后,MRAppMaster和Container會清理作業狀態,job的資訊會被歷史服務器存盤,以備之后用戶核查
(時間間隔可以通過mapreduce.client.completion.pollinterval來設定)


十一、Hadoop自帶的作業調度器有哪幾種?分別是什么?

1.先進先出調度器(FIFO):這是一種批量調度器,會先按照作業的優先級,再按照時間先后選擇被執行的作業,

2.容量調度器(Capacity Scheduler):該容器會對同一用戶提交的作業所占資源量進行限定,

3.公平調度器(Fair Scheduler):該調度器支持佇列多用戶,每個佇列中的資源可以配置,同一佇列中的作業公平共享佇列中的所有資源,

轉載請註明出處,本文鏈接:https://www.uj5u.com/ruanti/231127.html

標籤:其他

上一篇:國內Java面試總是問StringBuffer,StringBuilder區別是啥?檔次為什么這么低?

下一篇:不愧是百度的社招一二三面,JVM+spring+mysql+Zookeeper真的問的我懷疑人生了

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 面試突擊第一季,第二季,第三季

    第一季必考 https://www.bilibili.com/video/BV1FE411y79Y?from=search&seid=15921726601957489746 第二季分布式 https://www.bilibili.com/video/BV13f4y127ee/?spm_id_fro ......

    uj5u.com 2020-09-10 05:35:24 more
  • 第三單元作業總結

    1.前言 這應該是本學期最后一次寫作業總結了吧。總體來說,對作業的節奏也差不多掌握了,作業做起來的效率也更高了。雖然和之前的作業一樣,作業中都要用到新的知識,但是相比之前,更加懂得了如何利用工具以及資料。雖然之間卡過殼,但總體而言,這幾次作業還算完成的比較好。 2.作業程序總結 相比前兩個單元,此單 ......

    uj5u.com 2020-09-10 05:35:41 more
  • 北航OO(2020)第四單元博客作業暨課程總結博客

    北航OO(2020)第四單元博客作業暨課程總結博客 本單元作業的架構設計 在本單元中,由于UML圖具有比較清晰的樹形結構,因此我對其中需要進行查詢操作的元素進行了包裝,在樹的父節點中存盤所有孩子的參考。考慮到性能問題,我采用了快取機制,一次查詢后盡可能快取已經遍歷過的資訊,以減少遍歷次數。 本單元我 ......

    uj5u.com 2020-09-10 05:35:48 more
  • BUAA_OO_第四單元

    一、UML決議器設計 ? 先看下題目:第四單元實作一個基于JDK 8帶有效性檢查的UML(Unified Modeling Language)類圖,順序圖,狀態圖分析器 MyUmlInteraction,實際上我們要建立一個有向圖模型,UML中的物件(元素)可能與同級元素連接,也可與低級元素相連形成 ......

    uj5u.com 2020-09-10 05:35:54 more
  • 6.1邏輯運算子

    邏輯運算子 1. && 短路與 運算式1 && 運算式2 01.運算式1為true并且運算式2也為true 整體回傳為true 02.運算式1為false,將不會執行運算式2 整體回傳為false 03.只要有一個運算式為false 整體回傳為false 2. || 短路或 運算式1 || 運算式2 ......

    uj5u.com 2020-09-10 05:35:56 more
  • BUAAOO 第四單元 & 課程總結

    1. 第四單元:StarUml檔案決議 本單元采用了圖模型決議UML。 UML檔案可以抽象為圖、子圖、邊的邏輯結構。 在實作中,圖的節點包括類、介面、屬性,子圖包括狀態圖、順序圖等。 采用了三次遍歷UML元素的方法建圖,第一遍遍歷建點,第二、三次遍歷設定屬性、連邊,實作圖物件的初始化。這里借鑒了一些 ......

    uj5u.com 2020-09-10 05:36:06 more
  • 談談我對C# 多型的理解

    面向物件三要素:封裝、繼承、多型。 封裝和繼承,這兩個比較好理解,但要理解多型的話,可就稍微有點難度了。今天,我們就來講講多型的理解。 我們應該經常會看到面試題目:請談談對多型的理解。 其實呢,多型非常簡單,就一句話:呼叫同一種方法產生了不同的結果。 具體實作方式有三種。 一、多載 多載很簡單。 p ......

    uj5u.com 2020-09-10 05:36:09 more
  • Python 資料驅動工具:DDT

    背景 python 的unittest 沒有自帶資料驅動功能。 所以如果使用unittest,同時又想使用資料驅動,那么就可以使用DDT來完成。 DDT是 “Data-Driven Tests”的縮寫。 資料:http://ddt.readthedocs.io/en/latest/ 使用方法 dd. ......

    uj5u.com 2020-09-10 05:36:13 more
  • Python里面的xlrd模塊詳解

    那我就一下面積個問題對xlrd模塊進行學習一下: 1.什么是xlrd模塊? 2.為什么使用xlrd模塊? 3.怎樣使用xlrd模塊? 1.什么是xlrd模塊? ?python操作excel主要用到xlrd和xlwt這兩個庫,即xlrd是讀excel,xlwt是寫excel的庫。 今天就先來說一下xl ......

    uj5u.com 2020-09-10 05:36:28 more
  • 當我們創建HashMap時,底層到底做了什么?

    jdk1.7中的底層實作程序(底層基于陣列+鏈表) 在我們new HashMap()時,底層創建了默認長度為16的一維陣列Entry[ ] table。當我們呼叫map.put(key1,value1)方法向HashMap里添加資料的時候: 首先,呼叫key1所在類的hashCode()計算key1 ......

    uj5u.com 2020-09-10 05:36:38 more
最新发布
  • 【中介者設計模式詳解】C/Java/JS/Go/Python/TS不同語言實作

    * 中介者模式是一種行為型設計模式,它可以用來減少類之間的直接依賴關系,
    * 將物件之間的通信封裝到一個中介者物件中,從而使得各個物件之間的關系更加松散。
    * 在中介者模式中,物件之間不再直接相互互動,而是通過中介者來中轉訊息。 ......

    uj5u.com 2023-04-20 08:20:47 more
  • 露天煤礦現場調研和交流案例分享

    他們集團的資訊化公司及研究院在一個礦區正在做智能礦山的統一平臺的 試點,專案投資大概1億,包括了礦山的各方面的內容,顯示得我們這次交流有點多余。他們2年前開始做智能礦山的規劃,有很多煤礦行業專家的加持,他們的描述是非常完美,但是去年底應該上線的平臺,現在還沒有看到影子。他們確實有很多場景需求,但是被... ......

    uj5u.com 2023-04-20 08:20:25 more
  • 《社區人員管理》實戰案例設計&個人案例分享

    設計是一個讓人夢想成真程序,開始編碼、測驗、除錯之前進行需求分析和架構設計,才能保證關鍵方面都做正確 ......

    uj5u.com 2023-04-20 08:20:17 more
  • 軟體架構生態化-多角色交付的探索實踐

    作為一個技術架構師,不僅僅要緊跟行業技術趨勢,還要結合研發團隊現狀及痛點,探索新的交付方案。在日常中,你是否遇到如下問題 “ 業務需求排期長研發是瓶頸;非研發角色感受不到研發技改提效的變化;引入ISV 團隊又擔心質量和安全,培訓周期長“等等,基于此我們探索了一種新的技術體系及交付方案來解決如上問題。 ......

    uj5u.com 2023-04-20 08:20:10 more
  • 【中介者設計模式詳解】C/Java/JS/Go/Python/TS不同語言實作

    * 中介者模式是一種行為型設計模式,它可以用來減少類之間的直接依賴關系,
    * 將物件之間的通信封裝到一個中介者物件中,從而使得各個物件之間的關系更加松散。
    * 在中介者模式中,物件之間不再直接相互互動,而是通過中介者來中轉訊息。 ......

    uj5u.com 2023-04-20 08:19:44 more
  • 露天煤礦現場調研和交流案例分享

    他們集團的資訊化公司及研究院在一個礦區正在做智能礦山的統一平臺的 試點,專案投資大概1億,包括了礦山的各方面的內容,顯示得我們這次交流有點多余。他們2年前開始做智能礦山的規劃,有很多煤礦行業專家的加持,他們的描述是非常完美,但是去年底應該上線的平臺,現在還沒有看到影子。他們確實有很多場景需求,但是被... ......

    uj5u.com 2023-04-20 08:19:07 more
  • 《社區人員管理》實戰案例設計&個人案例分享

    設計是一個讓人夢想成真程序,開始編碼、測驗、除錯之前進行需求分析和架構設計,才能保證關鍵方面都做正確 ......

    uj5u.com 2023-04-20 08:18:57 more
  • 軟體架構生態化-多角色交付的探索實踐

    作為一個技術架構師,不僅僅要緊跟行業技術趨勢,還要結合研發團隊現狀及痛點,探索新的交付方案。在日常中,你是否遇到如下問題 “ 業務需求排期長研發是瓶頸;非研發角色感受不到研發技改提效的變化;引入ISV 團隊又擔心質量和安全,培訓周期長“等等,基于此我們探索了一種新的技術體系及交付方案來解決如上問題。 ......

    uj5u.com 2023-04-20 08:18:49 more
  • 05單件模式

    #經典的單件模式 public class Singleton { private static Singleton uniqueInstance; //一個靜態變數持有Singleton類的唯一實體。 // 其他有用的實體變數寫在這里 //構造器宣告為私有,只有Singleton可以實體化這個類! ......

    uj5u.com 2023-04-19 08:42:51 more
  • 【架構與設計】常見微服務分層架構的區別和落地實踐

    軟體工程的方方面面都遵循一個最基本的道理:沒有銀彈,架構分層模型更是如此,每一種都有各自優缺點,所以請根據不同的業務場景,并遵循簡單、可演進這兩個重要的架構原則選擇合適的架構分層模型即可。 ......

    uj5u.com 2023-04-19 08:42:41 more