嗨,我知道這是一個基本問題,但我是 Foundry 和 Pyspark 的新手,請幫忙!我需要使用 3 列在 Palantir Foundry 的代碼作業簿中加入兩個資料集(兩個在兩個列中命名相同,但一個在資料集中使用不同的名稱)我不知道如何做到這一點。感謝您的幫助!
uj5u.com熱心網友回復:
根據pyspark 檔案,您可以使用“on”引數(連接鍵)的列串列。如果你加入了兩個資料集(df1 和 df2),其中 df1 有連接鍵 ["a", "b", "c"] 和 df2 有連接鍵 ["a", "b", "c2"],我會做這樣的事情:
df1.join(df2.withColumnRenamed("c2", "c"), on=["a", "b", "c"], how="left")
uj5u.com熱心網友回復:
根據@kate 提供的 PySpark 檔案,您只需要指定
- 表示列的字串,必須存在于兩個表中
- 表示多列的字串串列,同樣必須存在于兩個表中
- 列運算式,它允許您對連接條件執行一些更復雜的邏輯。例如,你可能想加入到表上的條件,
date在表中的列是介于兩者之間date_before,并date_after在表B.這看起來是這樣的df_a.join(df_b, on=((df_a.date < df_b.date_after) & (df_a.data > df_b.date_before))),所以你在你如何加入資料集方面在這里有一個很大的靈活性
轉載請註明出處,本文鏈接:https://www.uj5u.com/net/337170.html
標籤:加入 火花 palantir-铸造厂 代工代码工作簿
上一篇:KQL:加入表后合并2列
