Spark和Hadoop的異同點分析
- 一、兩者實作原理的比較
- 二、 兩者多方面的對比
- 三、Spark和MR兩者之間的詳細對比分析(重點)
- 3.1 速度
- 3.2 容錯性
- 3.3 適用性
- 3.4 框架和生態
- 3.5 運行環境
- 四、三大分布式計算框架系統
(1)Spark:是分布式計算平臺,是一個用scala語言撰寫的計算框架,基于記憶體的快速、通用、可擴展的大資料分析引擎 ,
(2)Hadoop:是分布式管理、存盤、計算的生態系統;
其中包括三大部分:HDFS(存盤)、MapReduce(計算)、Yarn(資源調度)
一、兩者實作原理的比較
1、Hadoop和Spark都是并行計算,兩者都是用MR模型進行計算 ,Hadoop一個作業稱為一個Job,Job里面分為Map Task和Reduce Task階段,每個Task都在自己的行程中運行,當Task結束時,行程也會隨之結束,
2、Spark用戶提交的任務稱為application,一個application對應一個SparkContext,app中存在多個job,每觸發一次action操作就會產生一個job,這些job可以并行或串行執行,每個job中有多個stage,stage是shuffle程序中DAGScheduler通過RDD之間的依賴關系劃分job而來的,每個stage里面有多個task,組成taskset,由TaskScheduler分發到各個executor中執行;executor的生命周期是和app一樣的,即使沒有job運行也是存在的,所以task可以快速啟動讀取記憶體進行計算,
所以,spark比MR快的原因也在這,MR啟動就需要申請資源,用完就銷毀,但是spark把行程拿到以后,這個行程會一直存在,即使沒有job在跑,所以后邊的job可以直接啟動,不需要再重新申請資源,
注意:一個Application ——> 多個job ——>一個job多個stage ——> 一個stage多個task
二、 兩者多方面的對比
(1)Spark對標于Hadoop中的計算模塊MR,但是速度和效率比MR要快得多;
(2)Spark沒有提供檔案管理系統,所以,它必須和其他的分布式檔案系統進行集成才能運作,它只是一個計算分析框架,專門用來對分布式存盤的資料進行計算處理,它本身并不能存盤資料;
(3)Spark可以使用Hadoop的HDFS或者其他云資料平臺進行資料存盤,但是一般使用HDFS來進行存盤;
(4)Spark可以使用基于HDFS的HBase資料庫,也可以使用HDFS的資料檔案,還可以通過jdbc連接使用Mysql資料庫資料;Spark可以對資料庫資料進行修改洗掉,而HDFS只能對資料進行追加和全表洗掉;
(5)Spark資料處理速度秒殺Hadoop中MR;
(6)Spark處理資料的設計模式與MR不一樣,Hadoop是從HDFS讀取資料,通過MR將中間結果寫入HDFS;然后再重新從HDFS讀取資料進行MR,再刷寫到HDFS,這個程序涉及多次落盤操作,多次磁盤IO,效率并不高;而Spark的設計模式是讀取集群中的資料后,在記憶體中存盤和運算,直到全部運算完畢后,再存盤到集群中;
(7)Spark是由于Hadoop中MR效率低下而產生的高效率快速計算引擎,批處理速度比MR快近10倍,記憶體中的資料分析速度比Hadoop快近100倍(源自官網描述);
(8)Spark中RDD一般存放在記憶體中,如果記憶體不夠存放資料,會同時使用磁盤存盤資料;通過RDD之間的血緣連接、資料存入記憶體中切斷血緣關系等機制,可以實作災難恢復,當資料丟失時可以恢復資料;這一點與Hadoop類似,Hadoop基于磁盤讀寫,天生資料具備可恢復性;
(9)Spark引進了記憶體集群計算的概念,可在記憶體集群計算中將資料集快取在記憶體中,以縮短訪問延遲;
(10)Spark中通過DAG有向無環圖可以實作良好的容錯,
三、Spark和MR兩者之間的詳細對比分析(重點)
3.1 速度
(1)spark把運算的中間資料存放在記憶體,迭代計算效率更高;
(2)mapreduce的中間結果需要保存到磁盤, 這樣必然會有磁盤io操做,影響性能,
3.2 容錯性
(1)spark容錯性高,它通過彈性分布式資料集RDD來實作高效容錯,RDD是一組分布式的存盤在節點記憶體中的只讀性質的資料集,這些集合是彈性的,某一部分丟失或者出錯,可以通過整個資料集的計算流程的血緣關系來實作重建;
(2)mapreduce的容錯可能只能重新計算了,成本較高,
3.3 適用性
(1)spark更加通用,spark提供了transformation和action這兩大類的多個功能API,另外還有流式處理 sparkstreaming模塊、圖計算GraphX等等;
(2)mapreduce只提供了map和reduce兩種操作,流計算以及其他模塊的支持比較缺乏,
3.4 框架和生態
(1)Spark框架和生態更為復雜適用范圍更廣,首先由RDD、血緣lineage、執行時的有向無環圖DAG、stage劃分等等,很多時候spark作業都需要根據不同的業務場景的需要進行調優,以達到性能要求,
(2)MR框架及其生態相對較為簡單,對性能的要求也相對較弱,但是運行較為穩定,適合長期后臺運行以及離線海量資料挖掘計算,
3.5 運行環境
(1)spark大致有四種運行模式:
local:本地運行
standalone:使用Spark自帶的資源管理框架,運行spark的應用(常用)
yarn:將spark應用類似mr一樣,提交到yarn上運行 (常用)
mesos:類似yarn的一種資源管理框架
(2)MR運行在YARN上
四、三大分布式計算框架系統
(1)Mapreduce適合處理海量離線的靜態資料;
(2)Spark對實時的資料做批處理;
(3)Storm/Flink對實時在線的資料做流式處理,
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/122476.html
標籤:其他
上一篇:理論+實驗:群集負載均衡搭建--LVS-DR群集部署
下一篇:《面試心經》---Redis基礎
