1.研究背景
在實際的大資料工程部署中,多個業務部門經常需要運行多個資料應用,在搭建Hadoop集群時,經常面臨如何劃分大資料集群及進行資源隔離的問題,另外,由于預算有限等原因,資料運維部門也有控制預算,減少大資料集群節點個數,同時保證重點業務性能等訴求,
現有大資料集群一般支持2種資源管理方式,包括物理多租和邏輯多租,分別介紹如下,在物理多租模式中,每個租戶擁有自己的MRS集群,資源和資料物理隔離,它的特點如下:
- 租戶間的資源完全物理隔離,隔離級別較高,租戶間完全互不影響;但空閑資源無法供其他租戶使用,存在資源浪費,
- 不同租戶的資料在不同集群內,資料共享需要手工搬運資料,效率較低;
- 管理模式比較簡單,對管理員技能要求相對較低;
- 運維管理作業量較大,需要維護多套集群,比如集群升級需要每個集群逐一升級,
在邏輯多租模式中,多個租戶共用同一個集群,通過集群內的多租戶安全體系,實作多租戶之間的資源資源和權限管控,它的特點如下:
- 租戶間的資源可以動態調配,A租戶不使用的資源可供B租戶使用,有助于提升平臺的整體資源利用率;
- 不同租戶間的資料在同一平臺內,可通過權限放通實作資料的共享,資料免搬運;
- 對管理員技能要求高,要求熟悉各個多租戶的特性與基本原理,合理進行多租戶資源和權限的規劃和分配;
- 運維管理作業量較小,一套集群統一管理,

圖1. 大資料物理多租示意圖

圖2. 大資料邏輯多租示意圖
2.問題分析
在進行大資料集群劃分時,需要實作兩個主要目標,首先,需要確保不同資料業務之間的資源隔離,保證各個資料業務的性能;其次,為了控制預算,需要想辦法減少節點個數,為了實作上述兩個目標,需要做以下三方面的作業:
作業一、為了減少節點個數,需要合并集群,
- 減少MRS集群個數,減少MRS管控節點;
作業二、采用邏輯多租和多實體,實作資源隔離,
- 對于支持YARN的組件,通過邏輯多租實作,實作資源隔離;
- 對于不支持YARN的組件,通過多實體和物理機部署,實作資源隔離;
作業三、部分組件進一步合部,減少節點個數,
- 支持YARN的組件(HIVE/SPARK/HETU/FLINK),適配同樣硬體的組件,可以合部在一個資源池內,通過多租戶機制隔離,進一步減少節點個數;
- 對于多個HBASE集群,采用多實體的方法,進行硬體資源隔離,
為了既能保證重點業務的性能,又能減少節點個數,只能將既適配同樣硬體,又能基于同一資源調度器作業的組件合部,下面,我們就分析不同大資料組件適配的硬體型別,主要是從硬碟型別、資源調度器、業務型別等角度分析,

表1. 大資料組件分類
考慮因素一、計算資源調度器不同,放在不同的節點
- 基于YARN的組件,包括HIVE/SPARKE/Flink/Hetu/;
- 不是基于YARN的組件,包括Flume/REDIS/ES/KAFKA;
考慮因素二、硬碟型別相同,才能合布
- SSD:flink、flume、Redis;
- SATA:spark + hive, hbase, hetu引擎;
- SAS: ElasticSearch, Kafka;
考慮因素三、業務分類
- 離線分析業務,HIVE/SPARK/HBASE/ES/HETU;
- 實時流式處理業務,Flink/Redis/Kafka;
其中,實時流式處理業務對可靠性要求較高,建議單獨部署,
3.方案介紹

圖3. 大資料資源管理策略
為了解決上述問題,我們提出如下方案,首先,我們將組件分為支持YARN的組件和不支持YARN的組件,主要策略如下,
主要策略一,針對支持YARN調度的組件,通過資源池進行資源隔離,主要步驟如下:
- 規劃機器資源,將相關資源規劃給支持YARN的組件,并在這些機器上面安裝Node Manager;
- 通過資源池將計算節點分開,不同的租戶應用跑到不同的機器上;
- 可以支持SATA硬碟的組件,分配統一的資源池,通過租戶、子租戶機制,進一步劃分資源;
- 要求SSD盤的組件,分配相應的資源池和租戶,通過租戶,獨占資源,
主要策略二,針對不支持YARN調度的組件,通過物理機隔離,這些物理機不裝Node Manager,主要步驟如下:
- 規劃機器資源,將相關資源規劃給不支持YARN的組件,不要在這些機器上面安裝Node Manager;
- 針對其不同組件要求不同的硬碟型別,分配不同的機器,并在上面安裝不同的組件;
- 針對多個HBASE集群,采用多實體和硬體隔離的方式,進行資源隔離;
- 如果單個子集群的負載過小,且適配同樣硬體的組件,可以進一步合部,
4.方案案例

圖4. 物理機集群部署方案

圖5. 邏輯多租部署方案
下面我們結合一個具體的專案,對比以下物理機集群方案和邏輯部署方案的效果,在圖4,描述了一個物理機部署方案,共有6集群,30控節點,在圖5,將上述6集群合并為一個集群,通過資源池和多實體的方式,來做資源隔離,對比兩個方案,可以發現以邏輯多租為主的部署方案,將顯著減少MRS的管控節點,同時也能保證各項業務的資源隔離,
本文由華為云發布,
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/449730.html
標籤:其他
上一篇:專訪 KubeVela 核心團隊:如何簡化云原生復雜環境下的應用交付和管理
下一篇:云原生時代的運維體系進化
