spark簡介

spark最初誕生于美國加州大學伯克利分校的AMP實驗室，是一個可用于大規模的

Spark是加州大學伯克利分校AMP實驗室（Algorithms, Machines, and People Lab）開發的通用記憶體并行計算框架

Spark使用Scala語言進行實作，它是一種面向物件、函式式編程語言，能夠像操作本地集合物件一樣輕松地操作分布式資料集，具有以下特點，

1.運行速度快：Spark擁有DAG執行引擎，支持在記憶體中對資料進行迭代計算，官方提供的資料表明，如果資料由磁盤讀取，速度是Hadoop MapReduce的10倍以上，如果資料從記憶體中讀取，速度可以高達100多倍，

2.易用性好：Spark不僅支持Scala撰寫應用程式，而且支持Java和Python和R語言進行撰寫，特別是Scala是一種高效、可拓展的語言，能夠用簡潔的代碼處理較為復雜的處理作業，

3.通用性強：Spark生態圈即BDAS包含了Spark Core、Spark SQL、Spark Streaming、MLLib和GraphX等組件，這些組件分別處理Spark Core提供記憶體計算框架、SparkStreaming的實時處理應用、Spark SQL的即席查詢、MLlib或MLbase的機器學習和GraphX的圖處理，

4.隨處運行：Spark具有很強的適應性，能夠讀取HDFS、Cassandra、HBase、S3和Techyon為持久層讀寫原生資料，能夠以Mesos、YARN和自身攜帶的Standalone作為資源管理器調度job，來完成Spark應用程式的計算

5.與Hadoop最大的區別就是spark會把計算資料和中間結果都保存在記憶體里，

如圖是Hadoop的執行原理