假設您有兩個要從中讀取 spark 資料幀的 s3 存盤桶。對于 spark 資料框中的一個檔案讀取,如下所示:
file_1 = ("s3://loc1/")
df = spark.read.option("MergeSchema","True").load(file_1)
如果我們有兩個檔案:
file_1 = ("s3://loc1/")
file_2 = ("s3://loc2/")
我們如何讀取火花資料幀?有沒有辦法合并這兩個檔案位置?
uj5u.com熱心網友回復:
正如前面的評論所述,您可以單獨閱讀每個內容,然后執行聯合功能。
另一種選擇是嘗試 Spark RDD API,然后將其轉換為資料幀。例如:
sc = spark.sparkContext
raw_data_RDD = sc.textfile(<dir1> , <dir2>, ...)
對于嵌套目錄,您可以使用通配符 (*)。現在您必須考慮的一件事是您的兩個位置的模式是否相同。在轉換為資料幀之前,您可能需要進行一些預處理。設定架構后,您可以執行以下操作:
raw_df = spark.createCreateDataFrame(raw_data_RDD, schema=<schema>)
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/322618.html
