如何計算另一組的組中的平均值？-有解無憂

我有一個資料框：

    date                    id       type        revenue
0 2021-09-01                Zw        b1         20.045350
1 2021-09-01                Aw        c          8.990000
2 2021-09-01                Zc        c          14.990000
3 2021-09-01                ww        b          25.944510
4 2021-09-01                jw        c          3.881649
5 2021-09-01                pw        b          9.990000
6 2021-09-01                fg        c          2.990000
7 2021-09-01                kl        b          4.990000
8 2021-09-02                mm        b          7.990000

我想計算每種型別的平均收入，但不是按型別組計算，而是按日期組計算。因此，例如平均型別“b1”必須不是 20.045350（因為只有一個 b1 型別），而是 20.045350/8 = 2.5（因為列日期中有 8 個 2021-09-01 值）。所以想要的結果必須是：

    date                    type      revenue
0 2021-09-01                b1        2.5
0 2021-09-01                c         3.85
0 2021-09-01                b         5.11
0 2021-09-02                b         7.990000

怎么做？groupby("date", "type").mean() 帶來錯誤的結果：

    date                    type      revenue
0 2021-09-01                b1        20.045
0 2021-09-01                c         7.71
0 2021-09-01                b         13.64
0 2021-09-02                b         7.990000

uj5u.com熱心網友回復：

df1 = df.groupby('date')['id'].count().reset_index().\
             rename({'id':'count'}, axis = 1).merge(df)

df2 = df1.assign(revenue = df1.revenue/df1['count']).groupby(['date','type']).\
            agg({'revenue':sum}).reset_index()

df2 
         date type   revenue
0  2021-09-01    b  5.115564
1  2021-09-01   b1  2.505669
2  2021-09-01    c  3.856456
3  2021-09-02    b  7.990000

一種奇特的做法是：

df.groupby('date')['id'].count().reset_index().rename({'id':'count'}, axis = 1).merge(df).\
   pipe(lambda x: x.assign(revenue = x.revenue/x['count'])).groupby(['date','type']).\
   agg({'revenue':sum}).reset_index()

uj5u.com熱心網友回復：

做一個雙重分組并將它們分開：

(df.groupby(['type', 'date'])
   .revenue
   .sum()
   .div(df.date.value_counts(), level='date')
)
type  date
b     2021-09-01    5.115564
      2021-09-02    7.990000
b1    2021-09-01    2.505669
c     2021-09-01    3.856456
dtype: float64

解釋：

獲取日期的計數：

counts = df.date.value_counts()

獲取收益的基礎上，總和type和date：

revenue_sum =  df.groupby(['type', 'date']).revenue.sum()

除以revenue_sum通過counts使用date水平：

revenue_sum.div(counts, level='date')

type  date
b     2021-09-01    5.115564
      2021-09-02    7.990000
b1    2021-09-01    2.505669
c     2021-09-01    3.856456
dtype: float64

轉載請註明出處，本文鏈接：https://www.uj5u.com/qukuanlian/344561.html

標籤：Python 蟒蛇-3.x 熊猫通过...分组意思

上一篇：如何將2個串列中的專案連接成一個字串

下一篇：Tweepy流過濾器僅在一個過濾器之后