我想創建一個 DataFrame,將電影的型別分解為單獨的列,對于該型別的電影,每個單獨的型別列的值為 1。
來自這個電影資料框
到這個 資料框,創建了不同的流派列,1 為真,0 為假
我正在使用 Databricks PySpark。非常感謝!
uj5u.com熱心網友回復:
我將首先獲取串列中資料框列的唯一值,然后遍歷串列。此處資料框的名稱取為 df
unique_vals = df.select('genres').distinct().rdd.flatMap(lambda x: x).collect()
現在讓我們遍歷串列
df1=df
for i in unique_vals:
df2 = df1.withColumn(i,F.when(F.col('centroid')==i,1).otherwise(0))
df1=df2
df2.show()
uj5u.com熱心網友回復:
我認為這會奏效
df.groupby().pivot('genres').agg(lit(1)).fillna(0)
轉載請註明出處,本文鏈接:https://www.uj5u.com/yidong/421885.html
標籤:
