計算Pandas中具有相同列值的行的平均值-有解無憂

我正在嘗試將三個 Pandas DataFrames 組合在一起

其中一個（稱為major）有一列category，其中每一行都有一個唯一的標簽：

major_df = pd.DataFrame(np.random.randint(0, 100, size=(3, 2)), columns=list("AB"))
major_df["category"] = pd.Series(["cat_A", "cat_B", "cat_C"])

    A   B category
0  90  17    cat_A
1  36  81    cat_B
2  90  67    cat_C

另外兩個 dfs（稱為minor) contains multiple rows and have their own unique column names. Each df has a column category`，其中每一行都有一個存在于主要 df 類別列中的值：

minor_dfs = {}
for k, cols in zip(("1st", "2nd"), ("CD", "EF")):
    minor_dfs[k] = pd.DataFrame(np.random.randint(0, 100, size=(8, 2)), columns=list(cols))
    minor_dfs[k]["category"] = np.random.choice(["cat_A", "cat_B", "cat_C"], 8)

這是其中一個次要 dfs 的示例。兩者之間的唯一區別是第一個次要 df 具有列C和D，而第二個具有列E和F。

    C   D category
0  71  44    cat_C
1   5  88    cat_C
2   8  78    cat_C
3  31  27    cat_C
4  42  48    cat_B
5  18  18    cat_B
6  84  23    cat_A
7  94  23    cat_A

因此，我的目標是根據類別列計算次要 dfs 中值的平均值，以便最后得到以下 dfs ：

           C      D
cat_A  89.00  23.00
cat_B  30.00  33.00
cat_C  28.75  59.25

其中每一列包含每個類別中值的平均值。

為此，我撰寫了以下代碼，其中我們使用來自不同類別值的次要 dfs 和索引的列值創建空的 DataFrame。然后我使用 for 回圈填充這個資料框，在其中迭代索引的每個值。

copy_dfs = {}
for k, min_df in minor_dfs.items():
    # Get columns from minor df
    # Get index from category of major df
    col_names = min_df.columns.values
    ind_values = major_df.category.values

    # Create a df with columns and indices and set values to np.nan
    copy_df = pd.DataFrame(np.nan, index=ind_values, columns=col_names)
    copy_df = copy_df.drop("category", axis=1)

    # For each category in the index of the dataframe
    for maj_category in copy_df.index:
        # Select rows in minor df where category is the same as major df category
        minor_rows = min_df[min_df.category == maj_category]
        minor_rows = minor_rows.drop("category", axis=1)
        # Compute the mean values (by column) of the rows that were selected
        # Add the mean values into copy_df, where the index corresponds to major df category
        copy_df.loc[maj_category] = minor_rows.mean()

    # Store into dict
    copy_dfs[k] = copy_df

但是，我認為可以使用矢量化操作來優化此代碼，尤其是在我為每一行迭代的部分。所以我想知道是否有一種更簡單、更聰明的方法來完成我想要做的事情？

uj5u.com熱心網友回復：

這個？

import pandas as pd

df = pd.read_excel('test.xlsx')
df1 = df.groupby(['category']).mean()
print(df)
print(df1)

輸出：

    C   D category
0  71  44    cat_C
1   5  88    cat_C
2   8  78    cat_C
3  31  27    cat_C
4  42  48    cat_B
5  18  18    cat_B
6  84  23    cat_A
7  94  23    cat_A


              C      D
category
cat_A     89.00  23.00
cat_B     30.00  33.00
cat_C     28.75  59.25

轉載請註明出處，本文鏈接：https://www.uj5u.com/qukuanlian/370794.html

標籤：Python 熊猫数据框循环矢量化

上一篇：如何根據user_id和購買月份提取資料？

下一篇：按時間段對資料框進行排序；日期時間64[ns]