我需要將一個JAR檔案作為庫來安裝,同時設定一個Databricks集群作為我的Azure發布管道的一部分。 截至目前,我已經完成了以下作業--
使用Azure CLI任務來創建集群定義使用curl命令將JAR檔案從Maven倉庫下載到 管線代理檔案夾中databricks fs cp將JAR檔案從本地(pipeline
代理)目錄中的JAR檔案復制到dbfs:/FileStore/jars檔案夾我試圖創建一個集群范圍的初始腳本(bash)腳本,它將-
- 安裝pandas、azure-cosmos和python-magic軟體包
- 安裝JAR。
- 安裝JAR檔案(已經在前面的步驟中復制到dbfs:/FileStore/jars位置)作為集群庫檔案 。
我的集群啟動腳本看起來像這樣 -
/databricks/python/bin/pip install pandas 2>/dev/null
/databricks/python/bin/pip安裝azure-cosmos 2>/dev/null
/databricks/python/bin/pip 安裝 python-magic 2>/dev/null
但我不知道 -
- 這是否會將軟體包添加到集群中
- 如何將現有的JAR檔案作為一個庫添加到集群中 。
我知道還有其他方法可以編輯集群庫的元資料,但據我所知,對集群庫的任何更改都需要集群處于運行狀態,而在我們的案例中可能不是這樣。這就是為什么我想在我的集群定義中添加一個init腳本,這樣,當集群被重新啟動/運行時,init腳本將被執行。
請幫助。
謝謝。
謝謝。 Subhash
uj5u.com熱心網友回復:
如果你只是想把jar檔案復制到集群節點中,只要把它們復制到/databricks/jars檔案夾中,像這樣(作為你init腳本的一部分):
cp `/dbfs/FileStore/jars/<file-name.jar> /databricks/jars/
或者
cp `/dbfs/FileStore/jars/*.jar /databricks/jars/
關于init腳本的其余部分--是的,它將根據需要在所有集群節點上安裝軟體包。只有兩條評論:
#!/bin/bash
/databricks/python/bin/pip install pandas azure-cosmos python-magic
- 使用
2>/dev/null可能會使初始腳本的除錯更加困難,例如,當你有一個網路連接問題,或構建錯誤。 如果沒有它,你將能夠拉出集群日志(如果它們被啟用,而且它也將包含初始腳本的日志) 。
轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/324974.html
標籤:
