我想用 Scala 代碼在 Spark 中創建一個資料框,如下所示:
| col_1 | col_2 | col_3 | .. | col_2048 |
|---|---|---|---|---|
| 0.123 | 0.234 | ... | ... | 0.323 |
| 0.345 | 0.456 | ... | ... | 0.534 |
然后向其中添加一個額外的 ArrayType 列,將所有這些 2048 列資料保存在一列中:
| col_1 | col_2 | col_3 | .. | col_2048 | 陣列列 |
|---|---|---|---|---|---|
| 0.123 | 0.234 | ... | ... | 0.323 | [0,123, 0.234, ..., 0.323] |
| 0.345 | 0.456 | ... | ... | 0.534 | [0.345, 0.456, ..., 0.534] |
uj5u.com熱心網友回復:
嘗試這個
df.withColumn("array_col",array(df.columns.map(col): _*)).show
uj5u.com熱心網友回復:
PySpark:
創建列串列并使用 python 映射。
cols = df.columns
df.withColumn('array_col', f.array(*map(lambda c: f.col(c), cols)))
轉載請註明出處,本文鏈接:https://www.uj5u.com/gongcheng/370296.html
