機器學習之資料探索——資料質量分析-有解無憂

資料探索是對樣本資料進行解釋性的分析作業，它是資料挖掘和機器學習較為前期的部分，更偏重于研究資料的本質、描述資料的形態特征并解釋資料的相關性，
換句話說，透過資料探索，我們應該可以回答如下問題：
樣本資料的分布怎樣？有什么特點？資料之間有何種關系？資料是否滿足建模要求？

問題驅動發展，對以上問題進行解答，涉及到資料探索的兩個方面作業：

資料質量分析

資料特征分析

需要提及的是，資料探索與資料預處理緊密相連的，二者在資料挖掘的中沒有絕對的先后次序，比如，在資料質量分析中，就牽涉到資料預處理中的資料清洗，
本文將主要介紹資料質量分析的相關作業，

資料質量分析

資料質量分析的主要任務是檢查原始資料中是否存在臟資料，臟資料一般是指不符合要求，臟資料包括以下方面：

1 缺失值

2 例外值

3 不一致的值

4 重復資料以及含有特殊符號（如#、￥、*）的資料

對于第四種資料，理解起來比較簡單，處理也很容易，因此主要針對前三種資料進行分析，至于處理手段，所用到的方法是資料預處理中的資料清洗內容，

1 缺失值

資料的缺失主要包括記錄的缺失和記錄中某個欄位資訊的缺失，兩者都會造成分析結果的不準確，

（1）缺失值產生原因
1）有些資訊暫時無法獲取，或者獲取代價太大，
2）有些資訊被遺漏，可能是忘記填寫或對資料理解錯誤等因素，也可能是由于資料采集設備的故障造成，
3）屬性值不存在，在某些情況下，對一些物件來說某些屬性值不存在的，如一個未婚者的配偶姓名、一個兒童的固定收入等，

（2）缺失值處理方式
1）洗掉元組
將存在遺漏資訊屬性值的物件（記錄）洗掉，從而得到一個完備的資訊表，這種方法在物件有多個屬性缺失值、被洗掉的含缺失值的物件與資訊表中的資料量相比非常小的情況下是非常有效的，然而這種方法丟棄了大量隱藏在這些物件中的資訊，在資訊表中物件很少的情況下會影響到結果的正確性，可能導致資料發生偏離，從而引出錯誤的結論，
2）資料填補
資料挖掘中常用的有以下幾種補齊方法：
特殊值填充、平均值填充、就近補齊
使用演算法對缺失值進行估計，包括K最近鄰法、回歸、期望值最大化方法
3）不處理
這種方式對模型有特定要求，需要模型能夠處理缺失值，

2 例外值

例外值是指樣本中的個別值，其資料明顯偏離其余的觀測值，例外值也稱為離群點，例外值的分析也稱為離群點分析，

（1）例外值發現
1）簡單計量分析
可以先對變數做一個描述性統計，進而查看哪些資料是不合理的，最常用的統計量是最大值和最小值，用來判斷這個變數的取值是否超出了合理的范圍，如客戶年齡的最大值為199歲，則該變數的取值存在例外，
2）3σ原則
如果資料服從正態分布，在3σ原則下，例外值被定義為一組測定值中與平均值的偏差超過3倍標準差的值，在正態分布的假設下，距離平均值3σ之外的值出現的概率為P(|x-μ|>3σ)≤0.003，屬于極個別小概率事件，
如果資料不服從正態分布，也可以用遠離平均值的多少倍標準差來描述，
3）箱型圖分析
箱型圖提供了識別例外值的一個標準：例外值通常被定義為小于QL-1.5IQR或大于Qu+1.5IQR的值，QL成為下四分位數，表示全部觀察值中有四分之的資料取值比它小；Qu稱為上四分位數，表示全部觀察值中有四分之一的資料取值比它大；IQR稱為四分位數間距，是上四分位數與下四分位數之差，其間包含了全部觀察值的一半，

（2）例外值處理方式
例外值的處理與缺失值類似，簡要如下：
1）洗掉含有例外值的記錄
2）將例外值視為缺失值，使用缺失值處理方法來處理
3）不處理

3 一致性

資料不一致性是指資料的矛盾性、不相容性等，
在資料挖掘程序中，不一致資料的產生主要發生在資料集成程序中，這可能是由于從不同的資料源、對于重新存放的資料未能進行一致性造成的，例如，兩張表中都存盤了用戶的電話號碼，但在用戶的電話號碼發生改變時只更新了一張表中的資料，那么這兩張表中就有了不一致的資料，

宣告：本文有關內容源于《python資料挖掘與實踐》

轉載請註明出處，本文鏈接：https://www.uj5u.com/houduan/181821.html

標籤：Python

上一篇：Python_字串方法

下一篇：《自拍教程37》段位進階注意事項