前面幾篇文章對 Yarn 基本架構、程式基礎庫、應用設計方法等進行了介紹,之后幾篇將開始對 Yarn 核心組件進行剖析,
ResourceManager(RM)是 Yarn 的核心管理服務,負責集群管理、任務調度、狀態機管理等,本篇將對 RM 總體架構進行介紹,
一、RM 基本職能
主要包含以下幾個功能:
- Client 互動:處理來自 Client 的請求;
- 管理 ApplicationMaster:啟動、管理、重啟等;
- 管理 Nodemanager:接收 NM 匯報的資源資訊,并下達管理指令;
- 資源管理與調度:接收 AM 的資源請求,并分配資源,

如上圖所示,RM 中各組件通過對應 RPC 與各 Client 進行通信:
- ResourceTrackerProtocol: NodeManager(NM)通過該 RPC 協議向 RM 注冊、匯報節點健康狀況和 Container 運行狀態,并領取 RM 下達的命令,NM 與 RM 之間采用了「pull模型」,NM 總是周期性地主動向 RM 發起請求(心跳),并領取下達給自己的命令,
- ApplicationMasterProtocol: 應用程式的 ApplicationMaster 通過該 RPC 協議向 RM 注冊、申請資源和釋放資源,(AM 與 RM 互動參考上一篇文章「3-3 Yarn Application Master 撰寫」)
- ApplicationClientProtocol: 應用程式的客戶端通過該 RPC 協議向 ResourceManager 提交應用程式、查詢應用程式狀態和控制應用程式(比如殺死應用程式)等,(AppClient 與 RM 互動參考文章「3-2 Yarn Client 撰寫」
從以上介紹中可以看出,與 RM 通過 RPC 通信的組件都采用「Pull 模型」,各個「Client」通過心跳定期向 RM 匯報,在心跳回傳值中領取 RM 下達的指令,
二、RM 內部架構
本節將深入 RM 內部,看其內部組織結構和主要模塊,架構圖如下所示:

一)用戶互動模塊
RM 分別針對普通用戶、管理員和 Web 提供了三種對外服務:
- ClientRMService: 為普通用戶提供的服務,它處理來自客戶端各種RPC請求,比如提交應用程式、終止應用程式、獲取應用程式運行狀態等;
- AdminService: RM 為管理員提供了一套獨立的服務介面,以防止管理員發送的管理命令餓死,管理員可通過這些介面管理集群,比如動態更新節點串列、更新ACL串列、更新佇列資訊等;
- WebApp: 更加友好地展示集群資源使用情況和應用程式運行狀態等資訊,
二) NM 管理模塊
- NMLivelinessMonitor: 監控 NM 是否活著,長時間(默認為10min)內未匯報心跳資訊,則認為其掛了;
- NodesListManager: 維護正常節點和例外節點串列,管理exclude(類似于黑名單)和include(類似于白名單)節點串列,這兩個串列均是在組態檔中設定的,可以動態加載;
- ResourceTrackerService: 處理來自 NM 的請求,主要包括注冊和心跳兩種請求,
三) AM 管理模塊
- AMLivelinessMonitor: 監控AM是否活著,長時間未匯報心跳,它上面所有正在運行的 Container 將被置為失敗狀態,而 AM 本身會被重新分配到另外一個節點上執行(AM 重試次數默認是2);
- ApplicationMasterLauncher: 與某個 NM 通信,要求它為某個應用程式啟動 ApplicationMaster;
- ApplicationMasterService(AMS): 處理來自 AM 的請求,主要包括注冊和心跳兩種請求,其中心跳匯報資訊包含所需資源描述、待釋放的Container串列、黑名單串列等,而 AMS 則為之回傳相應的 Container 資訊,
四) Application 管理模塊
- ApplicationACLsManage: 管理應用程式訪問權限,包含兩部分權限:查看權限和修改權限;
- RMAppManager: 管理應用程式的啟動和關閉;
- ContainerAllocationExpirer: 當 AM 收到 RM 新分配的一個 Container 后,必須在一定的時間內啟動該 Container,否則將被回收,
五)狀態機管理模塊
RM 共維護四類狀態機:
- RMApp: 維護一個 Application 的整個運行周期,可能會包括多次 Attempt;
- RMAppAttempt: 一個實體運行失敗后,可能再次啟動一個重新運行,而每次啟動稱為一次運行嘗試用 「RMAppAttempt」描述,RMAppAttempt 維護了一次運行嘗試的整個生命周期;
- RMContainer: 維護一個 Container 的運行周期,RM 將資源封裝成 Container 發送給應用程式的 AM,而AM 則會在 Container 中啟動任務;
- RMNode: 維護一個 NM 的生命周期,包括啟動到運行結束整個程序,
六)安全管理模塊
RM 有非常全面的權限管理機制,主要包括:
- ClientToAMSecretManager
- ContainerTokenSecretManager
- ApplicationTokenSecretManager
七)資源分配模塊
該模塊主要涉及一個組件「ResourceScheduler」,其是資源調度器,按照一定的約束條件(比如佇列容量限制等)將集群中的資源分配給各個應用程式,
ResourceScheduler 是一個插拔式模塊,自帶三個調度器,用戶可以自己定制:
- FIFO:先進先出,單用戶
- Fair Scheduler:公平調度器(FairScheduler基本上具備其它兩種的所有功能)
- Capacity Scheduler:容量調度器
此部分將在后面文章中更詳細的介紹,
三、RM事件與事件處理器
Yarn采用了事件驅動機制,而RM是的實作則是最好的例證,所有服務和組件均是通過中央異步調度器組織在一起的,不同組件之間通過事件互動,從而實作了一個異步并行的高效系統,
下面是詳細的表格:

四、小結
在 YARN 中,ResourceManager 負責集群中所有資源的統一管理和分配,它接收來自各個節點(NodeManager)的資源匯報資訊,并把這些資訊按照一定的策略分配給各個應用程式,
本篇對 ResourceManager 總體架構進行了介紹,對其基本職能、內部結構、處理的事件進行了梳理,后續文章中將會對每個部分深入原始碼進行更深入討論,
參考文章:
《Hadoop 技術內幕 - 深入決議 Yarn 結構設計與實作原理》第五章
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/538016.html
標籤:其他
上一篇:哈夫曼應用
