我有rdd與串列,如
{
"name": "adam"。
"性別": "male",
"new_column": "white,black,yellow"
如何用鍵值創建新的rdd,如:
。{
"name": "adam"。
"性別": "male",
"new_column": "white".
}
{
"name": "adam",
"性別": "male",
"new_column": "black".
}
{
"name": "adam",
"性別": "male",
"new_column": "yellow", "new_column".
}
誰能為我指引正確的方向。
df.printSchema()
根
|-- 名字: 字串 (nullable = true)
|-- 性別: string (nullable = true)
|-- new_column: string (nullable = true)
uj5u.com熱心網友回復:
從Spark 1.5開始,你可以使用split,然后使用explode函式,如下:
from pyspark.sql import functions as F
df.withColumn("new_column", F.explode(F.split("new_column", ", "))
你可以在pyspark函式檔案中找到所有你能在pyspark中使用的函式
。轉載請註明出處,本文鏈接:https://www.uj5u.com/caozuo/328341.html
標籤:
