轉貼澄清。
我正在研究如下所示的資料框:
------- ---- ------ ------
| Value | ID | Date | ID 2 |
------- ---- ------ ------
| 1 | 5 | 2012 | 111 |
| 1 | 5 | 2012 | 112 |
| 0 | 12 | 2017 | 113 |
| 0 | 12 | 2022 | 114 |
| 1 | 27 | 2005 | 115 |
| 1 | 27 | 2011 | 116 |
------- ---- ------ -----
僅使用具有“Value”==“1”(“value 是布林值)的行,我想按 ID 對資料框進行分組并將字串“latest”輸入到新(空白)列,給出以下輸出:
------- ---- ------ ------ -------
| Value | ID | Date | ID 2 |Latest |
------- ---- ------ ------ -------
| 1 | 5 | 2012 | 111 | |
| 1 | 5 | 2012 | 112 | Latest |
| 0 | 12 | 2017 | 113 | |
| 0 | 12 | 2022 | 114 | |
| 1 | 27 | 2005 | 115 | |
| 1 | 27 | 2011 | 116 | Latest |
------- ---- ------ ----- --------
我正在使用以下代碼來查找最大值:
latest = df.query('Value==1').groupby("ID").max("Year").assign(Latest = "Latest")
df = pd.merge(df,latest,how="outer")
df
但我已經意識到一些最大年份是相同的,即可能有 4 行,最大年份為 2017 年。對于決勝局,我需要在組內使用最大 ID 2。
latest = df.query('Value==1').groupby("ID").max("Year").groupby("ID 2").max("ID 2").assign(Latest = "Latest")
df = pd.merge(df,latest,how="outer")
df
但它給了我一個與想要的完全不同的資料框。
uj5u.com熱心網友回復:
嘗試這個:
df['Latest'] = np.where(df['ID2'].eq(df.groupby(df['Value'].ne(df['Value'].shift(1)).cumsum())['ID2'].transform('max')) & df['Value'].ne(0), 'Latest', '')
輸出:
>>> df
Value ID Date ID2 Latest
0 1 5 2012 111
1 1 5 2012 112 Latest
2 0 12 2017 113
3 0 12 2022 114
4 1 27 2005 115
5 1 27 2011 116 Latest
uj5u.com熱心網友回復:
這是一種與您自己的方法有點相似的方法。基本上,groupby last獲取最新的 assign一個變數 merge:
df = df.merge(df.groupby(['ID', 'Value'])['ID 2'].last().reset_index().assign(Latest=lambda x: np.where(x['Value'], 'Latest', '')), how='outer').fillna('')
甚至這有效:
df = df.query('Value==1').groupby('ID').last('ID 2').assign(Latest='Latest').merge(df, how='outer').fillna('')
輸出:
Value ID Date ID 2 Latest
0 1 5 2012 111
1 1 5 2012 112 Latest
2 0 12 2017 113
3 0 12 2022 114
4 1 27 2005 115
5 1 27 2011 116 Latest
uj5u.com熱心網友回復:
這是一個帶有視窗功能的:
c = df['Value'].ne(df['Value'].shift())
s = df['Date'].add(df['ID 2']) #add the year and ID for handling duplicates
c1 = s.eq(s.groupby(c.cumsum()).transform('max'))& (df['Value'].eq(1))
df['Latest'] = np.where(c1,'Latest','')
print(df)
Value ID Date ID 2 Latest
0 1 5 2012 111
1 1 5 2012 112 Latest
2 0 12 2017 113
3 0 12 2022 114
4 1 27 2005 115
5 1 27 2011 116 Latest
轉載請註明出處,本文鏈接:https://www.uj5u.com/qianduan/449001.html
標籤:Python python-3.x 熊猫 数据框 熊猫-groupby
上一篇:過濾產品頻率和類別
