我有一個場景,我們將 apache spark 與 sql server 將表的加載資料連接到 spark 并從中生成 aparquet 檔案。
這是我的代碼片段:
val database = "testdb"
val jdbcDF = (spark.read.format("jdbc")
.option("url", "jdbc:sqlserver://DESKTOP-694SPLH:1433;integratedSecurity=true;databaseName=" database)
.option("dbtable", "employee")
.option("driver", "com.microsoft.sqlserver.jdbc.SQLServerDriver")
.load())
jdbcDF.write.parquet("/tmp/output/people.parquet")
它在 spark shell 中運行良好,但我想在 Windows PowerShell 或 Windows 命令腳本(批處理檔案)中自動執行此操作,以便它成為 SQL Server 作業的一部分。
我將不勝感激任何建議或線索。
uj5u.com熱心網友回復:
已經能夠自己做到這一點,我將列出任何人都可以從中獲得幫助的步驟。
- 將您的代碼 spark-shell 代碼放入 Scala 檔案、程式或 Scala 應用程式中。
- 使用帶有 Spark 依賴項的 SBT 或 Maven 構建 spark scala 應用程式。
- 一旦您能夠成功編譯并運行您的 spark scala 應用程式。
- 將您的 Scala 應用程式打包或組裝到 jar 檔案中,Assembly 將生成一個胖 jar 檔案,我使用了 Assembly。
- 使用 spark-submit 在 Windows 批處理檔案中呼叫 Spark 應用程式的 jar 檔案,這將自動執行 Spark 代碼。
轉載請註明出處,本文鏈接:https://www.uj5u.com/gongcheng/396105.html
