Spark中最核心的概念是RDD(彈性分布式資料集),近年來,隨著資料量的不斷增長,分布式集群并行計算(如MapReduce、Dryad等)被廣泛運用于處理日益增長的資料。這些設計優秀的計算模型大都具有容錯性好、可擴展性強、負載平衡、編程方法簡單等優點,從而使得它們受到眾多企業的青睞,被大多數用戶用來進行大規模資料的處理。
但是,MapReduce這些并行計算大都是基于非回圈的資料流模型,也就是說,一次資料程序包含從共享檔案系統讀取資料、進行計算、完成計算、寫入計算結果到共享存盤中,在計算程序中,不同計算節點之間保持高度并行,這樣的資料流模型使得那些需要反復使用一個特定資料集的迭代演算法無法高效第運行。
Spark和Spark使用的RDD就是為了解決這種問題而開發出來的,Spark使用了一種特殊設計的資料結構,稱為RDD。RDD的一個重要特征是,分布式資料集可以在不同的并行環境當中被重復使用,這個特性將Spark和其他并行資料流模型框架(如MapReduce)區別開。
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/61416.html
標籤:Spark
上一篇:ShareREC為什么不錄制UI
