定義在Pandas資料框中填充NaN的策略？-有解無憂

我有一個混合型別的資料框 - 字串、浮點數、整數、布林值。

pd.DataFrame({'a': [6.6, -5.2, 2.1, float('NaN'), float('NaN')],
              'b': ['a', 'a', 'NaN', 'b', 'NaN'],
              'c': [True, True, False, float('NaN'), float('NaN')],
              'd': [1,2,3,None, None]})

大多數這些列都有一些 NaN。我想根據一些自定義規則估算缺失值：對于每個浮點型別列 - 取該列的中位數并估算。對于每個字串列 - 采用模式并進行估算。對于每個整數列 - 取中位數、ceil 和估算。對于每個 bool 列 - 用 False 估算缺失值。

這就是我到目前為止所做的：

fill_na_policy = {'float64': np.median(),
                  'int': np.ceil(np.median()),
                  'string': scipy.stats.mode(),
                  'bool': False}
df.fillna(df.dtypes.replace(fill_na_policy), inplace=True)

請告知如何使其作業，或者我應該為每種型別創建 lambda 函式嗎？

uj5u.com熱心網友回復：

您可以使用來區分和選擇不同型別的列select_dtypes，并使用您想要資料幀的每個單獨部分的技術進行估算。考慮下面的例子：

# Select numeric columns
f = df.select_dtypes('float64')
i = df.select_dtypes('int64')

# Select string and boolean columns
o = df.select_dtypes('object')
b = df.select_dtypes(include='bool')

# Fill numeric
df[f.columns] = f.fillna(f.median())
df[i.columns] = i.fillna(np.ceil(np.median(i)))

# Fill object
df[o.columns] = o.fillna(o.agg(lambda x: x.mode().values[0]))
df[b.columns] = b.fillna(False)

這會給你：

     a  b      c    d
0  6.6  a   True  1.0
1 -5.2  a   True  2.0
2  2.1  a  False  3.0
3  2.1  b   True  2.0
4  2.1  a   True  2.0

uj5u.com熱心網友回復：

為各種資料型別創建一個系列：

# create more variables depending on the dtype
floats = df.select_dtypes(float).median()
strings = df.select_dtypes('object').mode().stack().droplevel(0)
fill_vals = pd.concat([floats, strings])

現在填充資料框（列是 fill_vals 中的索引，每個對應列的值將被替換）：

df.fillna(fill_vals)

轉載請註明出處，本文鏈接：https://www.uj5u.com/caozuo/385018.html

標籤：蟒蛇-3.x 熊猫数据框缺失数据菲尔纳

上一篇：在Tkinter畫布上用滑鼠繪圖

下一篇：運行時警告：協程“Messageable.send”從未被等待python.py