我是 Spark 的初學者,剛剛拿起了強烈推薦的“Spark - The Definitive Edition”教科書。運行代碼示例,遇到了第一個需要我上傳隨書提供的航班資料 csv 檔案的示例。我已將檔案上傳到以下位置,如螢屏截圖所示:
/FileStore/tables/spark_the_definitive_guide/data/flight-data/csv

我過去曾使用 Azure Databricks 將檔案直接上傳到 DBFS 并使用ls命令訪問它們而沒有任何問題。但現在在 Databricks (Runtime 9.1) 的社區版中,我似乎無法這樣做。
當我嘗試使用以下命令訪問剛剛上傳到 dbfs 的 csv 檔案時:
%sh ls /dbfs/FileStore/tables/spark_the_definitive_guide/data/flight-data/csv
我不斷收到以下錯誤:
ls: cannot access '/dbfs/FileStore/tables/spark_the_definitive_guide/data/flight-data/csv': No such file or directory
我嘗試找出解決方案,并遇到了建議的使用方法,dbutils.fs.cp()如下所示:
dbutils.fs.cp('C:/Users/myusername/Documents/Spark_the_definitive_guide/Spark-The-Definitive-Guide-master/data/flight-data/csv', 'dbfs:/FileStore/tables/spark_the_definitive_guide/data/flight-data/csv')
dbutils.fs.cp('dbfs:/FileStore/tables/spark_the_definitive_guide/data/flight-data/csv/', 'C:/Users/myusername/Documents/Spark_the_definitive_guide/Spark-The-Definitive-Guide-master/data/flight-data/csv/', recurse=True)
他們都沒有作業。兩者都拋出了錯誤: java.io.IOException: No FileSystem for scheme: C
這真的阻礙了我繼續學習。如果有人能盡快幫我解決這個問題,那就太酷了。提前致謝。
uj5u.com熱心網友回復:
我相信您嘗試使用的方式是錯誤的,像這樣使用它
列出資料:
顯示(dbutils.fs.ls(“/FileStore/tables/spark_the_definitive_guide/data/flight-data/”))
在 databricks 目錄之間復制:
dbutils.fs.cp("/FileStore/jars/d004b203_4168_406a_89fc_50b7897b4aa6/databricksutils-1.3.0-py3-none-any.whl","/FileStore/tables/new.whl")
對于本地副本,您需要創建令牌并配置 databricks-cli 以從計算機發送到您的 databricks 帳戶的 dbfs 的高級版本:
databricks fs cp C:/folder/file.csv dbfs:/FileStore/folder
轉載請註明出處,本文鏈接:https://www.uj5u.com/qukuanlian/450579.html
標籤:阿帕奇火花 数据块 databricks 社区版
上一篇:創建十進制型別的列
下一篇:來自陣列列的Pyspark樣本值
