Pyspark大資料問題-如何從另一個資料框中添加列（沒有常見的連接列）并且大小可能不均勻-有解無憂

我正在尋找一種從一個 pyspark 資料框中添加列的方法，可以說這是 DF1：

到另一個 pyspark 資料框，它本身將有任意數量的列，但沒有column1，DF2：

這里需要注意的是，我想避免使用 Pandas，并且如果可能的話，我想避免將所有資料拉到一個磁區中。這將在 DF2 端達到 TB 級的資料，它將在 EMR 集群上分布運行。

DF1 將是一組固定的數字，可能多于或少于 DF2 的行數。如果 DF2 有更多行，則應重復 DF1 值（思考回圈）。如果 DF1 有更多行，我們不會超過 DF2 中的行，我們只需為每一行附加一個值（如果我們包含 DF1.1 中的所有行無關緊要）

如果這些要求看起來很奇怪，那是因為值本身在 DF1 中很重要，我們需要在 DF2 中使用它們，但是將 DF1 中的哪個值附加到每個 DF2 行并不重要（我們只是不想重復一遍又一遍的相同值，盡管有些重復很好）

我試過的：

我希望找到什么：

我正在尋找一種方法來簡單地回圈來自 DF1 的值并將它們應用于 DF2 上的每一行，但如果可能的話，使用本機 Pyspark 進行。

最后一個例子看起來像這樣：

第 1 列	第 2 列	第 3 列	第 4 列
123	000	資料	一些1
234	253774	ETC	ETC
345	1096	無效的	更多的
123	999	其他	無效的

uj5u.com熱心網友回復：

視窗函式的組合row_number可能ntile是答案：

或者，ntile(n)DF2 也可以獲得一個row_number()基礎列，而不是，id然后可以使用該列來計算 mod：

df.withColumn("id_mod", col("id") % lit(df1_count))

然后id_mod將其與 DF1 使用DF1.id

轉載請註明出處，本文鏈接：https://www.uj5u.com/yidong/510794.html