
在SparkSQL中Spark為我們提供了兩個新的抽象,分別是DataFrame和DataSet,他們和RDD有什么區別呢?首先從版本的產生上來看:
RDD (Spark1.0) —> Dataframe(Spark1.3) —> Dataset(Spark1.6)
如果同樣的資料都給到這三個資料結構,他們分別計算之后,都會給出相同的結果,不同是的他們的執行效率和執行方式,
在后期的Spark版本中,DataSet會逐步取代RDD和DataFrame成為唯一的API介面,
網址:https://www.cnblogs.com/swordfall/p/9006088.html#auto_id_0
轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/8614.html
標籤:大數據
