大資料預處理綜述-有解無憂

資料預處理背景

大資料專案開發流程

資料質量

準確性：資料是正確的，資料存盤在資料庫中的值對應于真實世界的值，
資料不準確的原因
1. 資料收集設備故障，
2. 資料輸入錯誤，
3. 資料傳輸程序出錯，
4. 命名約定、資料輸入、輸入欄位格式不一致，
相關性：指資料與特定的應用和領域有關，
相關性應用場景
1. 構造預測模型時，需要采集與模型相關的資料，
2. 相同的資料再不同的應用場景，相關性也是不一樣的，
完整性：指資訊具有一個物體描述的所有必需的部分，在傳統關系型資料庫中，完整性通常與空值（NULL）有關，一般包括記錄的缺失和記錄屬性的缺失，
資料不完整原因
1. 涉及隱私，無法獲取相關屬性，
2. 資料輸入時由于人為疏忽，
3. 資料輸入時由于機器故障，
時效性：指資料僅在一定時間段內對決策具有價值的屬性，資料的時效性很大程度上制約了決策的客觀效果，
相關場景：
1. 城市交通，
2. 商品推薦，
一致性：在資料庫中，不同地方存盤和使用的同一資料應當是等價的，表示資料有相等的值和相同的含義，
常見不一致情況
1. 邏輯不一致，
2. 記錄規范不一致：同一個資料，在不同的地方顯示存盤不一致，比如男女存盤，
可信性可解釋性
可行性
1. 資料來源的權威性，
2. 資料的規范性，
3. 資料產生的時間，
可解釋性
1. 反應資料是否容易理解，

資料預處理目的

資料預處理的目的就是提升資料質量，

重要性：資料預處理是資料挖掘中必不可少的關鍵一步，更是進行資料挖掘前的準備作業，

目的

達到改進資料的質量，提高資料挖掘程序的準確率和效率，
保證資料挖掘的正確性和有效性，
通過對資料格式和內容的調整，使得資料更符合挖掘的需要，

資料預處理的流程

1. 資料清理

清理臟資料：由于重復錄入，并發處理等不規范的操作，導致產生不完整，不準確的，無效的資料，

1.1 缺失值處理

現有資料集中某個或某些屬性的值是不完整的，

缺失值處理方法

忽略元組
人工填寫
使用全域常量替換空缺值
屬性的中心度量來填充
使用于給定元組同一類的所有樣本中心度量值
使用最可能的值

1.2 噪聲處理

不準確的值或明顯錯誤的值，通過噪聲處理降低對資料分析和結果的分析，

噪聲資料產生

資料收集工具的問題，
資料輸入錯誤，
資料傳輸錯誤，
技術的限制，
命名規則不一致，

噪聲處理的方法：

分箱法：通過考察資料的近鄰值來光滑有序資料值，

舉例：8、24、15、41、6、10、18、67、25等9個數，
排序：6、8、10、15、18、24、25、41、67，
分箱：

? 箱1： 6、8、10
? 箱2： 15、18、24
? 箱3： 25、41、67
分別用三種不同的分箱法求出平滑存盤資料的值：
平均值：8 箱1： 8,8,8，
中值： 18 箱2： 18,18,18 ，
邊界值：6、67 箱3：25,25,67，箱中的最大和最小值被視為箱邊界，
回歸
聚類