我有一個如下所示的資料框
ID_1,value_1,value_2,ID_2
1,21,0,A1
1,31,5,A2
1,0,0,A3
1,21,0,A4
1,21,21,A5
2,202,0,B1
2,310,159,B2
2,0,0,B3
2,201,310,B4
2,210,214,B5
2,178,190,B6
tdf = pd.read_clipboard(sep=',')
我想計算每個的平均值、中位數和眾數ID_1
但是,我想排除AND都為零的行value_1value_2
例如:我們將忽略/過濾掉行索引 2 和 7。
有一次,我們忽略具有零值的行,我們計算,mean并median基于mode 每個 的值。意思是,我們連接兩列中的值,然后計算統計資訊value_1value_2ID_1value_1value_2
我正在嘗試類似下面的東西,但它是不正確的
tdf = tdf[~(tdf['value_1']==0) & (tdf['value_2']==0)] #this is incorrect logic
t1_count = tdf.groupby('ID')['value_1'].size().reset_index()
t1_values = tdf.groupby('ID')['value_1'].agg(list)
我希望我的輸出如下所示
ID_1 mean mode median
0 1 18.8 21 21.0
1 2 183.5 310 201.5
uj5u.com熱心網友回復:
如果需要洗掉同時0使用的行:
tdf = tdf[~((tdf['value_1']==0) & (tdf['value_2']==0))]
要么:
tdf = tdf[(tdf['value_1']!=0) | (tdf['value_2']!=0)]
要么:
tdf = tdf[tdf[['value_1','value_1']].ne(0).all(axis=1)]
然后:
df = (tdf.melt(id_vars='ID_1',
value_vars=['value_1','value_2'])
.groupby('ID_1')['value'].agg(['mean','median',lambda x: x.mode().iat[0]])
.rename(columns={'<lambda_0>':'mode'})
.reset_index())
print (df)
ID_1 mean median mode
0 1 15.0 21.0 21
1 2 197.4 201.5 310
轉載請註明出處,本文鏈接:https://www.uj5u.com/gongcheng/441276.html
標籤:Python 熊猫 数据框 麻木的 熊猫-groupby
