想把spark sql 的結果dataframe保存為csv到本地檔案系統。但是集群上運行,只會在master那臺機器的給定目錄下生成_SUCESS檔案,而真正的csv檔案好像會隨機生成在集群的其他機器上面。有沒有辦法指定這個檔案的生成位置?起碼能確定csv檔案會在哪個機器上生成?
uj5u.com熱心網友回復:
HDFS就是這樣,你要是能指定到某一臺機器上,那就不是分布式的環境了,單機模式下可以保存到本地機器上uj5u.com熱心網友回復:
單機模式就是當前機器本地目錄生成,集群模式,你就不要指定某臺機器,直接指定hdfs:// 目錄,這樣相當于分布式檔案系統,所有機器共享的檔案目錄。集群是yarn進行資源管理,隨機選擇分配機器為driver端,如果設定是本地目錄,可能生成到某個機器的目錄上。轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/39327.html
標籤:Spark
