我試圖了解如何將Redshift Spectrum與Hudi資料正確連接。
看起來我可以直接為Apache Hudi中管理的資料創建Redshift外部表,就像以下檔案所描述的那樣 https://docs.aws.amazon.com/redshift/latest/dg/c-spectrum-external-tables.html 另一種方法是將Hudi與AWS Glue Data Catalog集成,就像這里提到的那樣 https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-hudi-how-it-works.html 然后通過AWS Glue Data Catalog用Redshift Spectrum訪問Hudi表。
我對Apache Spark的AWS EMR有同樣的需求。看起來我可以直接從 EMR 或通過 AWS Glue Data Catalog 使用 Hudi。
現在,我不明白應該選擇什么方式。你能告訴我通過AWS Glue Data Catalog使用Hudi有什么好處,還是我需要直接從Redshift Spectrum和AWS EMR中使用它?
uj5u.com熱心網友回復:
鑒于在EMR上使用Spark,你需要一個目錄,如果你愿意的話,Hive元存盤,那么使用AWS Glue Catalog是一個選擇。
如果您選擇使用 Glue 作為元存盤,那么請將其作為所有資料的來源。除非有明顯的錯誤,在這種情況下,使用Hudi api for Spark。
轉載請註明出處,本文鏈接:https://www.uj5u.com/qianduan/319193.html
標籤:
