使用列作為Python中最大值的決勝局-有解無憂

轉貼澄清。

我正在研究如下所示的資料框：

 ------- ---- ------ ------ 
| Value | ID | Date | ID 2 |
 ------- ---- ------ ------ 
|     1 |  5 | 2012 | 111 |
|     1 |  5 | 2012 | 112 |
|     0 | 12 | 2017 | 113 |
|     0 | 12 | 2022 | 114 |
|     1 | 27 | 2005 | 115 |
|     1 | 27 | 2011 | 116 |
 ------- ---- ------ -----

僅使用具有“Value”==“1”（“value 是布林值）的行，我想按 ID 對資料框進行分組并將字串“latest”輸入到新（空白）列，給出以下輸出：

 ------- ---- ------ ------ ------- 
| Value | ID | Date | ID 2 |Latest |
 ------- ---- ------ ------ ------- 
|     1 |  5 | 2012 | 111 |        |
|     1 |  5 | 2012 | 112 | Latest |
|     0 | 12 | 2017 | 113 |        |
|     0 | 12 | 2022 | 114 |        |
|     1 | 27 | 2005 | 115 |        |
|     1 | 27 | 2011 | 116 | Latest |
 ------- ---- ------ ----- --------

我正在使用以下代碼來查找最大值：

latest = df.query('Value==1').groupby("ID").max("Year").assign(Latest = "Latest")
df = pd.merge(df,latest,how="outer")
df

但我已經意識到一些最大年份是相同的，即可能有 4 行，最大年份為 2017 年。對于決勝局，我需要在組內使用最大 ID 2。

latest = df.query('Value==1').groupby("ID").max("Year").groupby("ID 2").max("ID 2").assign(Latest = "Latest")
df = pd.merge(df,latest,how="outer")
df

但它給了我一個與想要的完全不同的資料框。

uj5u.com熱心網友回復：

嘗試這個：

df['Latest'] = np.where(df['ID2'].eq(df.groupby(df['Value'].ne(df['Value'].shift(1)).cumsum())['ID2'].transform('max')) & df['Value'].ne(0), 'Latest', '')

輸出：

>>> df
   Value  ID  Date  ID2  Latest
0      1   5  2012  111        
1      1   5  2012  112  Latest
2      0  12  2017  113        
3      0  12  2022  114        
4      1  27  2005  115        
5      1  27  2011  116  Latest

uj5u.com熱心網友回復：

這是一種與您自己的方法有點相似的方法。基本上，groupby last獲取最新的 assign一個變數 merge：

df = df.merge(df.groupby(['ID', 'Value'])['ID 2'].last().reset_index().assign(Latest=lambda x: np.where(x['Value'], 'Latest', '')), how='outer').fillna('')

甚至這有效：

df = df.query('Value==1').groupby('ID').last('ID 2').assign(Latest='Latest').merge(df, how='outer').fillna('')

輸出：

   Value  ID  Date  ID 2  Latest
0      1   5  2012   111        
1      1   5  2012   112  Latest
2      0  12  2017   113        
3      0  12  2022   114        
4      1  27  2005   115        
5      1  27  2011   116  Latest

uj5u.com熱心網友回復：

這是一個帶有視窗功能的：

c = df['Value'].ne(df['Value'].shift()) 
s = df['Date'].add(df['ID 2']) #add the year and ID for handling duplicates
c1 = s.eq(s.groupby(c.cumsum()).transform('max'))& (df['Value'].eq(1))

df['Latest'] = np.where(c1,'Latest','')

print(df)

   Value  ID  Date  ID 2  Latest
0      1   5  2012   111        
1      1   5  2012   112  Latest
2      0  12  2017   113        
3      0  12  2022   114        
4      1  27  2005   115        
5      1  27  2011   116  Latest

轉載請註明出處，本文鏈接：https://www.uj5u.com/qianduan/449001.html

標籤：Python python-3.x 熊猫数据框熊猫-groupby

上一篇：過濾產品頻率和類別

下一篇：如何用更簡潔的東西替換所有這些“if...elif...else”陳述句？