我正在使用如下代碼將檔案寫入 S3 存盤桶:
df.write.format('csv').option('header','true').mode("append").save("s3://filepath")
這會根據需要作為多個檔案輸出到 S3 存盤桶,但每個部分都有一個長檔案名,例如:
部分-00019-tid-5505901395380134908-d8fa632e-bae4-4c7b-9f29-c34e9a344680-236-1-c000.csv
有沒有辦法將其寫為自定義檔案名,最好是在 PySpark 寫入函式中?如:
部分 00019-my-output.csv
uj5u.com熱心網友回復:
僅使用 Spark 無法做到這一點。后面的長亂數是為了確保沒有重復,當有許多許多執行器試圖在同一位置寫入檔案時不會發生覆寫。
您必須使用 AWS 開發工具包來重命名這些檔案。
P/S:如果你想要一個 CSV 檔案,你可以使用coalesce. 但是檔案名仍然無法確定。
df.coalesce(1).write.format('csv')...
轉載請註明出處,本文鏈接:https://www.uj5u.com/qiye/437717.html
標籤:亚马逊-s3 pyspark aws-databricks
