根據現有的列名和列值在python資料框中創建列-有解無憂

我在熊貓中有一個資料框：

import pandas as pd
# assign data of lists.  
data = {'Gender': ['M', 'F', 'M', 'F','M', 'F','M', 'F','M', 'F','M', 'F'], 
        'Employment': ['R','U', 'E','R','U', 'E','R','U', 'E','R','U', 'E'],
        'Age': ['Y','M', 'O','Y','M', 'O','Y','M', 'O','Y','M', 'O']
       } 
    
# Create DataFrame  
df = pd.DataFrame(data)  
df

我想要的是為每個現有列的每個類別創建一個具有以下格式的新列：

Gender_M -> for when the gender equals M
Gender_F -> for when the gender equal F
Employment_R -> for when employment equals R
Employment_U -> for when employment equals U
and so on...

到目前為止，我已經創建了以下代碼：

for i in range(len(df.columns)):
    curent_column=list(df.columns)[i]
    col_df_array = df[curent_column].unique()
    
    for j in range(col_df_array.size):
        new_col_name = str(list(df.columns)[i]) "_" col_df_array[j]
    
        for index,row in df.iterrows():
            if(row[curent_column] == col_df_array[j]):
                df[new_col_name] = row[curent_column]

問題是，即使我成功地創建了列名，我也無法獲得正確的列值。

例如，性別列應如下所示：

data2 = {'Gender': ['M', 'F', 'M', 'F','M', 'F','M', 'F','M', 'F','M', 'F'],
         'Gender_M': ['M', 'na', 'M', 'na','M', 'na','M', 'na','M', 'na','M', 'na'], 
         'Gender_F': ['na', 'F', 'na', 'F','na', 'F','na', 'F','na', 'F','na', 'F']
       } 

df2 = pd.DataFrame(data2)

只是說，na可以是任何東西，例如空白、點或 NAN。

uj5u.com熱心網友回復：

您正在尋找pd.get_dummies.

>>> pd.get_dummies(df)
    Gender_F  Gender_M  Employment_E  Employment_R  Employment_U  Age_M  Age_O  Age_Y
0          0         1             0             1             0      0      0      1
1          1         0             0             0             1      1      0      0
2          0         1             1             0             0      0      1      0
3          1         0             0             1             0      0      0      1
4          0         1             0             0             1      1      0      0
5          1         0             1             0             0      0      1      0
6          0         1             0             1             0      0      0      1
7          1         0             0             0             1      1      0      0
8          0         1             1             0             0      0      1      0
9          1         0             0             1             0      0      0      1
10         0         1             0             0             1      1      0      0
11         1         0             1             0             0      0      1      0

uj5u.com熱心網友回復：

如果您試圖以類似于 df2 示例的格式獲取資料，我相信這就是您要尋找的。

df[['Gender']].join(pd.get_dummies(df[['Gender']]).mul(df['Gender'],axis=0).replace('',np.NaN))

輸出：

   Gender Gender_F Gender_M
0       M      NaN        M
1       F        F      NaN
2       M      NaN        M
3       F        F      NaN
4       M      NaN        M
5       F        F      NaN
6       M      NaN        M
7       F        F      NaN
8       M      NaN        M
9       F        F      NaN
10      M      NaN        M
11      F        F      NaN

uj5u.com熱心網友回復：

如果您對新列中的 0 和 1 沒問題，那么使用get_dummies（如@richardec 所建議的）應該是最直接的。

但是，如果要在每個新列中使用特定字母，則另一種方法是回圈遍歷當前列和每列中的特定類別，然后使用apply根據此資訊創建一個新列。

for col in data.keys():
    categories = list(df[col].unique())
    for category in categories:
        df[f"{col}_{category}"] = df[col].apply(lambda x: category if x==category else float("nan"))

結果：

>>> df
   Gender Employment Age Gender_M Gender_F Employment_R Employment_U Employment_E Age_Y Age_M Age_O
0       M          R   Y        M      NaN            R          NaN          NaN     Y   NaN   NaN
1       F          U   M      NaN        F          NaN            U          NaN   NaN     M   NaN
2       M          E   O        M      NaN          NaN          NaN            E   NaN   NaN     O
3       F          R   Y      NaN        F            R          NaN          NaN     Y   NaN   NaN
4       M          U   M        M      NaN          NaN            U          NaN   NaN     M   NaN
5       F          E   O      NaN        F          NaN          NaN            E   NaN   NaN     O
6       M          R   Y        M      NaN            R          NaN          NaN     Y   NaN   NaN
7       F          U   M      NaN        F          NaN            U          NaN   NaN     M   NaN
8       M          E   O        M      NaN          NaN          NaN            E   NaN   NaN     O
9       F          R   Y      NaN        F            R          NaN          NaN     Y   NaN   NaN
10      M          U   M        M      NaN          NaN            U          NaN   NaN     M   NaN
11      F          E   O      NaN        F          NaN          NaN            E   NaN   NaN     O

轉載請註明出處，本文鏈接：https://www.uj5u.com/gongcheng/386216.html

標籤：熊猫数据框迭代

上一篇：根據資料幀值將具有默認值的新行添加到資料幀中

下一篇：將行分組到一個新的PandasDataFrame中，每組一行