我是 Spark 的初學者。我有一個場景,在不同的時間點有多個資料源進行分析。我可以同時使用 2 個 Spark 作業來使用單個 HDFS/S3 存盤嗎?一項作業會將最新資料寫入 S3/HDFS,而另一項作業將與來自另一個來源的輸入資料一起讀取以進行分析。
uj5u.com熱心網友回復:
是的,您可以寫入和讀取相同的資料源。資料只有在寫入完成后才會出現。(在 HDFS/S3 中)
uj5u.com熱心網友回復:
為了使用這兩個檔案系統,您需要包含檔案的協議。
例如spark.read.path("s3a://bucket/file")和/或spark.write.path("hdfs:///tmp/data")
但是,您可以通過設定直接使用 S3 代替 HDFSfs.defaultFS
轉載請註明出處,本文鏈接:https://www.uj5u.com/caozuo/408205.html
標籤:
上一篇:為什么我收到“權限被拒絕”錯誤HADOOP?為什么我無法匯入.csv檔案?
下一篇:出列多個符合相同協議的單元格
