我們正在嘗試將 pyspark 腳本從本地遷移,該腳本在 Hive 中創建和洗掉表,并將資料轉換到 GCP 平臺。
Hive 被 BigQuery 取代。在這種情況下,使用 spark-bigquery-connector 將 hive 讀取和寫入轉換為 bigquery 讀取和寫入。
然而,問題在于通過 spark sql 創建和洗掉 bigquery 表,因為 spark sql 將默認在由 hive 元存盤支持的 hive 上運行創建和洗掉查詢,而不是在大查詢上運行。
我想檢查是否有計劃合并 DDL 陳述句支持以及 spark-bigquery-connector 的一部分。
此外,從架構的角度來看,是否可以將 spark sql 的元存盤基于 bigquery,以便任何 create 或 drop 陳述句都可以在 spark 的 bigquery 上運行。
uj5u.com熱心網友回復:
我認為 Spark SQL 不會支持 BigQuery 作為元存盤,BQ 連接器也不會支持 BQ DDL。在 Dataproc 上,Dataproc Metastore (DPMS)是 Hive 和 Spark SQL 元存盤的推薦解決方案。
特別是,對于 Dataproc 的非預置遷移,遷移到 DPMS 更直接,請參閱此檔案。
轉載請註明出處,本文鏈接:https://www.uj5u.com/qiye/455002.html
標籤:阿帕奇火花 谷歌大查询 谷歌云数据处理 火花大查询连接器
