回填基于組pandas的列-有解無憂

我正在使用以下資料框：

df = pd.DataFrame({"id": ['A', 'A', 'A', 'B', 'B', 'B', 'C','C'  ], 
            "date": [pd.Timestamp(2015, 12, 30), pd.Timestamp(2016, 12, 30), pd.Timestamp(2018, 12, 30),pd.Timestamp(2015, 12, 30), pd.Timestamp(2016, 12, 30), pd.Timestamp(2018, 12, 30), pd.Timestamp(2016, 12, 30), pd.Timestamp(2019, 12, 30)], 
            "other_col": ['NA', 'NA', 'A444', 'NA', 'NA', 'B666', 'NA', 'C999'],
            "other_col_1": [123, 123, 'NA', 0.765, 0.555, 'NA', 0.324, 'NA']})

我想要實作的是：為每個相應的組回填“other_col”條目，并在“other_col_1”中等于“NA”時洗掉“other_col”。

我已經嘗試過 groupby bfill() 和 ffill()df.groupby('id')['other_col'].bfill()但它不起作用。

生成的資料框應如下所示：

df_new = pd.DataFrame({"id": ['A', 'A', 'B', 'B', 'C' ], 
            "date": [pd.Timestamp(2015, 12, 30), pd.Timestamp(2016, 12, 30), pd.Timestamp(2015, 12, 30), pd.Timestamp(2016, 12, 30), pd.Timestamp(2016, 12, 30)], 
            "other_col": ['A444', 'A444', 'B666', 'B666', 'C999'],
            "other_col_1": [123, 123, 0.765, 0.555, 0.324]})

uj5u.com熱心網友回復：

首先，'NA'用實際NaN值替換，然后bfill：

df = df.replace('NA', np.nan)
df = df.bfill()[df['other_col_1'].notna()]

輸出：

>>> df
  id       date other_col  other_col_1
0  A 2015-12-30      A444      123.000
1  A 2016-12-30      A444      123.000
3  B 2015-12-30      B666        0.765
4  B 2016-12-30      B666        0.555
6  C 2016-12-30      C999        0.324

uj5u.com熱心網友回復：

IIUC，你可以這樣做：

out = (
 df.replace('NA', pd.NA) # ensure real NA
   .assign(other_col=lambda d: d['other_col'].bfill()) # backfill other_col
   .dropna(subset=['other_col_1']) # drop rows based on other_col_1
)

或者，對于bfill每組：

(df.replace('NA', pd.NA)
   .assign(other_col=lambda d: d.groupby(d['id'].str.replace('\d ', '', regex=True))
                                ['other_col'].bfill())
   .dropna(subset=['other_col_1'])
)

輸出：

   id       date other_col other_col_1
0  A1 2015-12-30      A444         123
1  A2 2016-12-30      A444         123
3  B1 2015-12-30      B666       0.765
4  B2 2016-12-30      B666       0.555
6  C1 2016-12-30      C999       0.324

轉載請註明出處，本文鏈接：https://www.uj5u.com/caozuo/444463.html

標籤：Python 熊猫数据框填充

上一篇：過濾熊貓資料框行，其中具有列A和值X的特定行具有列B的值Y大于引數Z

下一篇：pandas：使用截斷的檔案名作為來自多個csv檔案的新資料框中列的標題，讀取特定列，將日期設定為索引