我有兩個具有不同值的火花資料框,我想連接它們:
東風:
c1 c2
A D
B E
B F
df2:
A B
key1 4
key2 5
key3 6
我想將這些資料框中某些列的唯一值連接到一個資料框中。因此,輸出將是
資源:
values origin
A first
B first
key1 second
key2 second
key3 second
uj5u.com熱心網友回復:
簡單union應該做的作業:
import pyspark.sql.functions as F
df1 = df1.selectExpr("c1 as value").distinct().withColumn("origin", F.lit("first"))
df2 = df2.selectExpr("A as value").distinct().withColumn("origin", F.lit("second"))
res = df1.union(df2)
轉載請註明出處,本文鏈接:https://www.uj5u.com/ruanti/416362.html
標籤:
