我正在關注Azure 團隊教程的這一部分Apache Spark。但是當我嘗試使用 的BroupBy函式時DataFrame,出現以下錯誤:
錯誤:
NameError:未定義名稱“TripDistanceMiles”
問題:以下代碼中出現錯誤的原因可能是什么,如何修復?
注意:我知道如何使用 Spark SQL 對以下結果進行分組,如同一教程的后面部分所示。但我有興趣使用該Groupby條款on the DataFrame
詳情:
a) 以下代碼正確顯示了 100 行和列標題,PassengerCount并且TripDistanceMiles:
%%pyspark
df = spark.read.load('abfss://[email protected]/NYCTripSmall.parquet', format='parquet')
display(df.select("PassengerCount","TripDistanceMiles").limit(100))
b) 但是下面的代碼沒有按記錄分組并拋出上面顯示的錯誤:
%%pyspark
df = spark.read.load('abfss://[email protected]/NYCTripSmall.parquet', format='parquet')
df = df.select("PassengerCount","TripDistanceMiles").limit(100)
display(df.groupBy("PassengerCount").sum(TripDistanceMiles).limit(100))
uj5u.com熱心網友回復:
嘗試將 TripDistanceMiles 放入雙引號中。喜歡
display(df.groupBy("PassengerCount").sum("TripDistanceMiles").limit(100))
轉載請註明出處,本文鏈接:https://www.uj5u.com/net/363982.html
