如何在不使用索引回圈的情況下一次計算所有聚合？-有解無憂

如何在不使用索引回圈的情況下一次計算所有聚合？

%%time
import random
random.seed(1)
df = pd.DataFrame({'val':random.sample(range(10), 10)})

for j in range(10):
    for i in df.index:
        df.loc[i,'mean_last_{}'.format(j)] = df.loc[(df.index < i) & (df.index >= i - j),'val'].mean()
        df.loc[i,'std_last_{}'.format(j)] = df.loc[(df.index < i) & (df.index >= i - j),'val'].std()
        df.loc[i,'max_last_{}'.format(j)] = df.loc[(df.index < i) & (df.index >= i - j),'val'].max()
        df.loc[i,'min_last_{}'.format(j)] = df.loc[(df.index < i) & (df.index >= i - j),'val'].min()
        df.loc[i,'median_last_{}'.format(j)] = df.loc[(df.index < i) & (df.index >= i - j),'val'].median()

uj5u.com熱心網友回復：

您可以使用滾動方法，例如：

df = pd.DataFrame({'val': np.random.random(100)})
for i in range(10):
    agg = df["val"].rolling(i).aggregate(['mean', 'median'])
    df[[f"mean_{i}", f"median_{i}"]] = agg.values

uj5u.com熱心網友回復：

我認為你正在尋找的是這樣的：

import random
random.seed(1)
df = pd.DataFrame({'val':random.sample(range(10), 10)})

for j in range(1, 10):
    df[f'mean_last_{j}'] = df['val'].rolling(j, min_periods=1).mean()
    df[f'std_last_{j}'] = df['val'].rolling(j, min_periods=1).std()
    df[f'max_last_{j}'] = df['val'].rolling(j, min_periods=1).max()
    df[f'min_last_{j}'] = df['val'].rolling(j, min_periods=1).min()
    df[f'median_last_{j}'] = df['val'].rolling(j, min_periods=1).median()

但是，相對于您的示例代碼，我的代碼是“不相上下的”。您打算為當前行中的每個聚合 INCLUDE 值，還是應該只使用前面的j行而不使用當前行？我的代碼包含當前行，但您的代碼不包含。您的代碼會NaN生成第一組聚合的值。

編輯：@Carlos 的答案用于rolling(j).aggregate()在一行中指定聚合串列。看起來是這樣的：

import random
random.seed(1)
df = pd.DataFrame({'val':random.sample(range(10), 10)})

aggs = ['mean', 'std', 'max', 'min', 'median']

for j in range(10):
    stats = df["val"].rolling(j, min_periods=min(j, 1)).aggregate(aggs)
    df[[f"{a}_last_{j}" for a in aggs]] = stats.values

轉載請註明出處，本文鏈接：https://www.uj5u.com/qiye/429590.html

標籤：熊猫统计数据滚动计算

上一篇：Pandas多級列資料框

下一篇：在熊貓資料框中將列名轉換為字串