目錄
- 一:處理缺失值
- 1. 過濾缺失值
- 二:補全缺失值
??關于檔案的讀寫方面先放一下,接下來介紹資料清洗方面的知識,有時候資料對于特定的任務來說格式并不正確,需要轉化為更加適合的資料形式,這里介紹資料清洗的有關基礎知識,本篇博客先介紹如何處理缺失值,
一:處理缺失值
??缺失資料在很多資料分析應用中都出現過,對于數值型資料,pandas使用浮點值NaN來表示缺失值,可以用isnull()對一直陣列逐元素進行操作,回傳布爾型判斷結果,回傳缺失值,而notnull相反,
??在pandas中,用R語言中的編程慣例,將缺失值成為NA(not available),表示不存在的資料或者是不可觀察的資料,而python內建的None值在物件陣列也被當作NA處理,
??可以用fillna填充缺失的資料,或使用'ffill'和'bfill'插值方法,
1. 過濾缺失值
??用dropna過濾缺失值是非常常見的,它會回傳Series中所有的非空資料及其索引值,和data[data.notnull()]是等價的,如下:

??當處理DataFrame時,會復雜一點,dropna默認情況下會洗掉包含缺失值的行:

??當傳入引數how='all'時,將洗掉所有值均為NA的行:

??想要用同樣的方法洗掉列,傳入引數axis=1即可:

??過濾DataFrame的行的相關方法往往涉及時間序列資料,可以用thresh引數保留包含一定數量的觀察值的行,如下:

二:補全缺失值
??有時候需要用多種方法補全缺失值,而不是過濾缺失值,因為會丟棄其他資料,在大多數情況下,主要用fillna方法來補全缺失,里面可以用一個常數來替代缺失值,如下:

??在呼叫fillna時使用字典,可以為不同列設定不同的填充值,

??fillna回傳的是一個新物件,但也可以修改已經存在的物件,用引數inplace=True即可,

??還可以用method='fill'引數,但是用的少,這里就不說明了,
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/159113.html
標籤:Python
上一篇:再看python
