Spark和Hadoop的異同點比較分析（很詳細哦！！！）-有解無憂

Spark和Hadoop的異同點分析

- 一、兩者實作原理的比較
- 二、兩者多方面的對比
- 三、Spark和MR兩者之間的詳細對比分析（重點）
- - 3.1 速度
  - 3.2 容錯性
  - 3.3 適用性
  - 3.4 框架和生態
  - 3.5 運行環境
- 四、三大分布式計算框架系統

（1）Spark：是分布式計算平臺，是一個用scala語言撰寫的計算框架，基于記憶體的快速、通用、可擴展的大資料分析引擎，

（2）Hadoop：是分布式管理、存盤、計算的生態系統；
其中包括三大部分：HDFS（存盤）、MapReduce（計算）、Yarn（資源調度）

一、兩者實作原理的比較

1、Hadoop和Spark都是并行計算，兩者都是用MR模型進行計算，Hadoop一個作業稱為一個Job，Job里面分為Map Task和Reduce Task階段，每個Task都在自己的行程中運行，當Task結束時，行程也會隨之結束，

2、Spark用戶提交的任務稱為application，一個application對應一個SparkContext，app中存在多個job，每觸發一次action操作就會產生一個job，這些job可以并行或串行執行，每個job中有多個stage，stage是shuffle程序中DAGScheduler通過RDD之間的依賴關系劃分job而來的，每個stage里面有多個task，組成taskset，由TaskScheduler分發到各個executor中執行；executor的生命周期是和app一樣的，即使沒有job運行也是存在的，所以task可以快速啟動讀取記憶體進行計算，

所以，spark比MR快的原因也在這，MR啟動就需要申請資源，用完就銷毀，但是spark把行程拿到以后，這個行程會一直存在，即使沒有job在跑，所以后邊的job可以直接啟動，不需要再重新申請資源，

注意：一個Application ——> 多個job ——>一個job多個stage ——> 一個stage多個task

二、兩者多方面的對比

（1）Spark對標于Hadoop中的計算模塊MR，但是速度和效率比MR要快得多；

（2）Spark沒有提供檔案管理系統，所以，它必須和其他的分布式檔案系統進行集成才能運作，它只是一個計算分析框架，專門用來對分布式存盤的資料進行計算處理，它本身并不能存盤資料；

（3）Spark可以使用Hadoop的HDFS或者其他云資料平臺進行資料存盤，但是一般使用HDFS來進行存盤；

（4）Spark可以使用基于HDFS的HBase資料庫，也可以使用HDFS的資料檔案，還可以通過jdbc連接使用Mysql資料庫資料；Spark可以對資料庫資料進行修改洗掉，而HDFS只能對資料進行追加和全表洗掉；

（5）Spark資料處理速度秒殺Hadoop中MR；

（6）Spark處理資料的設計模式與MR不一樣，Hadoop是從HDFS讀取資料，通過MR將中間結果寫入HDFS；然后再重新從HDFS讀取資料進行MR，再刷寫到HDFS，這個程序涉及多次落盤操作，多次磁盤IO，效率并不高；而Spark的設計模式是讀取集群中的資料后，在記憶體中存盤和運算，直到全部運算完畢后，再存盤到集群中；

（7）Spark是由于Hadoop中MR效率低下而產生的高效率快速計算引擎，批處理速度比MR快近10倍，記憶體中的資料分析速度比Hadoop快近100倍（源自官網描述）；

（8）Spark中RDD一般存放在記憶體中，如果記憶體不夠存放資料，會同時使用磁盤存盤資料；通過RDD之間的血緣連接、資料存入記憶體中切斷血緣關系等機制，可以實作災難恢復，當資料丟失時可以恢復資料；這一點與Hadoop類似，Hadoop基于磁盤讀寫，天生資料具備可恢復性；

（9）Spark引進了記憶體集群計算的概念，可在記憶體集群計算中將資料集快取在記憶體中，以縮短訪問延遲；

（10）Spark中通過DAG有向無環圖可以實作良好的容錯，

三、Spark和MR兩者之間的詳細對比分析（重點）

3.1 速度

（1）spark把運算的中間資料存放在記憶體，迭代計算效率更高；

（2）mapreduce的中間結果需要保存到磁盤，這樣必然會有磁盤io操做，影響性能，

3.2 容錯性

（1）spark容錯性高，它通過彈性分布式資料集RDD來實作高效容錯，RDD是一組分布式的存盤在節點記憶體中的只讀性質的資料集，這些集合是彈性的，某一部分丟失或者出錯，可以通過整個資料集的計算流程的血緣關系來實作重建；

（2）mapreduce的容錯可能只能重新計算了，成本較高，

3.3 適用性

（1）spark更加通用，spark提供了transformation和action這兩大類的多個功能API，另外還有流式處理 sparkstreaming模塊、圖計算GraphX等等；

（2）mapreduce只提供了map和reduce兩種操作，流計算以及其他模塊的支持比較缺乏，

3.4 框架和生態

（1）Spark框架和生態更為復雜適用范圍更廣，首先由RDD、血緣lineage、執行時的有向無環圖DAG、stage劃分等等，很多時候spark作業都需要根據不同的業務場景的需要進行調優，以達到性能要求，

（2）MR框架及其生態相對較為簡單，對性能的要求也相對較弱，但是運行較為穩定，適合長期后臺運行以及離線海量資料挖掘計算，

3.5 運行環境

（1）spark大致有四種運行模式：

local：本地運行
standalone：使用Spark自帶的資源管理框架，運行spark的應用（常用）
yarn：將spark應用類似mr一樣，提交到yarn上運行（常用）
mesos：類似yarn的一種資源管理框架

（2）MR運行在YARN上

四、三大分布式計算框架系統

（1）Mapreduce適合處理海量離線的靜態資料；

（2）Spark對實時的資料做批處理；

（3）Storm/Flink對實時在線的資料做流式處理，

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/122476.html

標籤：其他

上一篇：理論+實驗：群集負載均衡搭建--LVS-DR群集部署

下一篇：《面試心經》---Redis基礎

Spark和Hadoop的異同點比較分析（很詳細哦！！！）