資料預處理背景
大資料專案開發流程

資料質量
-
準確性:資料是正確的,資料存盤在資料庫中的值對應于真實世界的值,
資料不準確的原因
- 資料收集設備故障,
- 資料輸入錯誤,
- 資料傳輸程序出錯,
- 命名約定、資料輸入、輸入欄位格式不一致,
-
相關性:指資料與特定的應用和領域有關,
相關性應用場景
- 構造預測模型時,需要采集與模型相關的資料,
- 相同的資料再不同的應用場景,相關性也是不一樣的,
-
完整性:指資訊具有一個物體描述的所有必需的部分,在傳統關系型資料庫中,完整性通常與空值(NULL)有關,一般包括記錄的缺失和記錄屬性的缺失,
資料不完整原因
- 涉及隱私,無法獲取相關屬性,
- 資料輸入時由于人為疏忽,
- 資料輸入時由于機器故障,
-
時效性:指資料僅在一定時間段內對決策具有價值的屬性,資料的時效性很大程度上制約了決策的客觀效果,
相關場景:
- 城市交通,
- 商品推薦,
-
一致性:在資料庫中,不同地方存盤和使用的同一資料應當是等價的,表示資料有相等的值和相同的含義,
常見不一致情況
- 邏輯不一致,
- 記錄規范不一致:同一個資料,在不同的地方顯示存盤不一致,比如男女存盤,
-
可信性可解釋性
可行性
- 資料來源的權威性,
- 資料的規范性,
- 資料產生的時間,
可解釋性
- 反應資料是否容易理解,
資料預處理目的
資料預處理的目的就是提升資料質量,
重要性:資料預處理是資料挖掘中必不可少的關鍵一步,更是進行資料挖掘前的準備作業,
目的
- 達到改進資料的質量,提高資料挖掘程序的準確率和效率,
- 保證資料挖掘的正確性和有效性,
- 通過對資料格式和內容的調整,使得資料更符合挖掘的需要,
資料預處理的流程
1. 資料清理
清理臟資料:由于重復錄入,并發處理等不規范的操作,導致產生不完整,不準確的,無效的資料,
1.1 缺失值處理
現有資料集中某個或某些屬性的值是不完整的,
缺失值處理方法
- 忽略元組
- 人工填寫
- 使用全域常量替換空缺值
- 屬性的中心度量來填充
- 使用于給定元組同一類的所有樣本中心度量值
- 使用最可能的值
1.2 噪聲處理
不準確的值或明顯錯誤的值,通過噪聲處理降低對資料分析和結果的分析,
噪聲資料產生
- 資料收集工具的問題,
- 資料輸入錯誤,
- 資料傳輸錯誤,
- 技術的限制,
- 命名規則不一致,
噪聲處理的方法:
-
分箱法:通過考察資料的近鄰值來光滑有序資料值,
舉例:8、24、15、41、6、10、18、67、25等9個數,
排序:6、8、10、15、18、24、25、41、67,
分箱:? 箱1: 6、8、10
? 箱2: 15、18、24
? 箱3: 25、41、67
分別用三種不同的分箱法求出平滑存盤資料的值:
平均值:8 箱1: 8,8,8,
中值: 18 箱2: 18,18,18 ,
邊界值:6、67 箱3:25,25,67,箱中的最大和最小值被視為箱邊界, -
回歸
-
聚類
2. 資料集成
將互相關聯的分布式異構資料源集成到一起,使用戶能夠以透明的方式訪問這些資料源,
2.1 資料集成方法
- 聯邦資料庫:各資料源的資料視圖,集成為全域模式,
- 中間件集成:通過統一的全域資料模型,來訪問異構的資料源,
- 資料復制:將各個資料源的資料復制,到同一處,即資料倉庫,
2.2 集成程序要處理的問題
- 物體識別:匹配多個資訊源在現實世界中的等價物體,
- 冗余與相關分析:屬性重復,屬性相關冗余,元組重復,
- 資料沖突和檢測: 對現實世界的同一物體,來自不同資料源的屬性定義不同,原因:表示方法,度量單位、編碼或比例的差異
3. 資料變換
3.1 轉換目的
將資料轉換或統一成易于進行資料挖掘的資料存盤形式,使得挖掘程序可能更有效,
3.2 方法策略
- 光滑:去掉資料中的噪音,
- 屬性構造:由給定的屬性構造新的屬性并添加到屬性集中,幫助資料分析和挖掘,
- 聚集:對資料進行匯總或聚集
- 規范化:將屬性資料按比例縮放,使之落入一個小的特定區間
- 離散化:數值屬性用區間標簽或概念標簽替換,
- 由標稱資料產生概念分層:屬性,如street,可以泛化到較高的概念層,如city或country
4 資料歸約
由于在現實場景中,資料集是很龐大的,資料是海量的,在整個資料集上進行復雜的資料分析和挖掘需要花費很長的時間,
為了幫助從原有龐大資料集中獲得一個精簡的資料集合,并使這一精簡資料集保持原有資料集的完整性,這樣在精簡資料集上進行資料挖掘顯然效率更高,并且挖掘出來的結果與使用原有資料集所獲得結果是基本相同,
4.1 資料歸約分類
- 維歸約:用于檢測并洗掉不相關、弱相關或冗余的屬性,
- 數量歸約:用替代的、較小的資料表示形式替換原資料,來減少資料量,
- 資料壓縮:用資料編碼或資料轉換將原來的資料集合壓縮為一個較小規模的資料集合,
轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/16358.html
標籤:大數據
上一篇:oracle11g卸載出錯
下一篇:oracle行列轉換問題
