我有兩個 Pandas DataFrames,它們都包含相同的類別但不同的“id”列。為了說明,第一個表如下所示:
df = pd.DataFrame({
'id': list(np.arange(1, 12)),
'category': ['a', 'a', 'a', 'a', 'b', 'b', 'c', 'c', 'c', 'c', 'c'],
'weight': list(np.random.randint(1, 5, 11))
})
df['weight_sum'] = df.groupby('category')['weight'].transform('sum')
df['p'] = df['weight'] / df['weight_sum']
Output:
id category weight weight_sum p
0 1 a 4 14 0.285714
1 2 a 4 14 0.285714
2 3 a 2 14 0.142857
3 4 a 4 14 0.285714
4 5 b 4 8 0.500000
5 6 b 4 8 0.500000
6 7 c 3 15 0.200000
7 8 c 4 15 0.266667
8 9 c 2 15 0.133333
9 10 c 4 15 0.266667
10 11 c 2 15 0.133333
第二個只包含“id”和“category”。
我想要做的是創建第三個 DataFrame,它會繼承id第二個 DataFrame 的 ,加上ids第一個 DataFrame 的三個新列- 每個都應根據p列選擇,該列代表其在該列中的權重類別。
我已經嘗試了多種解決方案,并且正在考慮應用np.random.choice和 .apply(),但無法想出一種方法來使這項作業發揮作用。
編輯:
所需的輸出類似于:
user_id id_1 id_2 id_3
0 2 3 1 2
1 3 2 2 3
2 4 1 3 1
每個id是根據其概率和各自的category(兩個 DataFrames 都有此列)選擇的,并且相同的user_id.
所需的資料幀
uj5u.com熱心網友回復:
IIUC,您要選擇具有加權概率的同一類別的隨機ID。為此,您可以構建一個輔助資料框 (dfg) 并使用apply:
df2 = pd.DataFrame({
'id': np.random.randint(1, 12, size=11),
'category': ['a', 'a', 'a', 'a', 'b', 'b', 'c', 'c', 'c', 'c', 'c']})
dfg = df.groupby('category').agg(list)
df3 = df2.join(df2['category']
.apply(lambda r: pd.Series(np.random.choice(dfg.loc[r, 'id'],
p=dfg.loc[r, 'p'],
size=3)))
.add_prefix('id_')
)
輸出:
id category id_0 id_1 id_2
0 11 a 2 3 3
1 10 a 2 3 1
2 4 a 1 2 3
3 7 a 2 1 4
4 5 b 6 5 5
5 10 b 6 5 6
6 8 c 9 8 8
7 11 c 7 8 7
8 11 c 10 8 8
9 4 c 9 10 10
10 1 c 11 11 9
轉載請註明出處,本文鏈接:https://www.uj5u.com/qiye/315290.html
上一篇:如何比較列包含的值不是數字?
下一篇:條件滿足時填充nan值
