在Pandas中為具有多個條件的資料集定義父級-有解無憂

我有一個 CSV 檔案，其中包含超過 10,000,000 行具有以下結構的資料：我有一個 ID 作為每個組的唯一 ID：

資料格式

ID      Type        Name
1       Head        abc-001
1       Senior      abc-002
1       Junior      abc-003
1       Junior      abc-004     
2       Head        abc-005     
2       Senior      abc-006 
2       Junior      abc-007 
3       Head        abc-008     
3       Junior      abc-009     
...

為了定義父關系，存在以下條件：

每個組必須有 1 個頭。
每個組中只有 1 名老年人是可選的。
每組必須至少有一名少年。

預期結果

ID      Type        Name        Parent
1       Senior      abc-002     abc-001
1       Junior      abc-003     abc-002
1       Junior      abc-004     abc-002
2       Senior      abc-006     abc-005
2       Junior      abc-007     abc-006
3       Junior      abc-009     abc-008

下面的代碼在我有一個 Junior 時有效，我想知道是否有任何方法可以為多個 Junior 定義父級：

order = ['Head', 'Senior', 'Junior']
key = pd.Series({x: i for i,x in enumerate(order)})
df2 = df.sort_values(by='Type', key=key.get)
df4=df.join(df2.groupby('IP')['Type'].shift().dropna().rename('Parent'),how='right')
print(df4)

uj5u.com熱心網友回復：

您可以旋轉Type和列，然后在組Name內進行填充。ID然后取右邊的兩個非 NaN 條目來得到Parent和Name。

樞軸和前向填充：

dfn = pd.concat([df[['ID','Type']], df.pivot(columns='Type', values='Name')], axis=1) \
    .groupby('ID').apply(lambda x: x.ffill())[['ID','Type','Head','Senior','Junior']]
print(dfn)

   ID    Type     Head   Senior   Junior
0   1    Head  abc-001      NaN      NaN
1   1  Senior  abc-001  abc-002      NaN
2   1  Junior  abc-001  abc-002  abc-003
3   1  Junior  abc-001  abc-002  abc-004
4   2    Head  abc-005      NaN      NaN
5   2  Senior  abc-005  abc-006      NaN
6   2  Junior  abc-005  abc-006  abc-007
7   3    Head  abc-008      NaN      NaN
8   3  Junior  abc-008      NaN  abc-009

拉取最后兩個非 NaN 條目的函式：

def get_np(x):
    rc = [np.nan,np.nan]
    
    if x.isna().sum() != 2:
        if x.isna().sum() == 0:
            rc = [x['Junior'],x['Senior']]
        elif pd.isna(x['Junior']):
            rc = [x['Senior'],x['Head']]
        else:
            rc = [x['Junior'],x['Head']]
   
    return pd.concat([x[['ID','Type']], pd.Series(rc, index=['Name','Parent'])])

應用它并洗掉不適用的行：

dfn.apply(get_np, axis=1).dropna()

   ID    Type     Name   Parent
1   1  Senior  abc-002  abc-001
2   1  Junior  abc-003  abc-002
3   1  Junior  abc-004  abc-002
5   2  Senior  abc-006  abc-005
6   2  Junior  abc-007  abc-006
8   3  Junior  abc-009  abc-008

轉載請註明出處，本文鏈接：https://www.uj5u.com/qiye/478165.html

標籤：Python python-3.x 熊猫 python-2.7

上一篇：htaccess忽略現有檔案夾的目錄和子目錄

下一篇：如何從C#更改XAML字形？