是否可以將spark和hadoop分別部署在兩個不同的物理主機集群上?
即spark部署在一堆硬碟很小,但是記憶體很大的物理主機上主機名spark1-n。hadoop部署在另外一堆硬碟比較大,記憶體一般的主機上,主機名hadoop1-n。spark部署好后默認遠程訪問這個hadoop集群,變成一個獨立的spark計算集群,hadoop只是它計算資料的來源和資料結果的存放地,從物理機層面就是分離的。不過所有主機在同一個機房中,網路通信速度不存在問題。
主要想達到spark不與原有hadoop集群的hive爭搶記憶體,還能發揮計算優勢的目的。
請問是否可以這樣部署,具體應該注意哪些細節,spark配置時應該注意哪些部分。
uj5u.com熱心網友回復:
涉及到spark計算時使用hadoop集群的資料的時候,會涉及到大量的服務器之間的資料傳輸,變相延長處理時間;至于spark和hive競爭記憶體,可以配置spark的slaves時,去掉hive所在的節點就可以了.. 另外spark計算時如果涉及大量資料時,記憶體不夠用,資料也會臨時快取到磁盤上的,所以磁盤小 也不太合適..uj5u.com熱心網友回復:
如果將spark 托管給yarn時,可以配置每個節點執行spark任務時最大的記憶體使用空間,不見得會強占服務器上的所有記憶體,如果可以的話也可以使用docker容器模式.uj5u.com熱心網友回復:
集群必須是一個uj5u.com熱心網友回復:
可以將spark和hadoop分別部署在兩個不同的物理主機集群上,實測 www.jiaoyidao.netuj5u.com熱心網友回復:
可以這樣部署完全沒問題,我現在就是這么部署的。你的spark任務應該不是托管給yarn吧。轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/45776.html
標籤:Spark
上一篇:spark代碼問題
下一篇:Spark啟動報錯?
