資料不平衡又稱樣本比例失衡,比如二分類問題,如果標簽為1的樣本占總數的99%,標簽為0的樣本占比1%則會導致判斷「失誤嚴重」,準確率虛高,
常見的解決不平衡問題的方法如下,
「資料采樣」
資料采樣分為上采樣和下采樣,上采樣是將少量的資料通過重復復制使得各類別比例均衡,不過很容易導致過擬合問題,所以需要在新生成的資料中加入隨機擾動,
下采樣則相反,下采樣是從多數類別中篩選出一部分從而使得各類別資料比例維持在正常水平,但容易丟失比較重要的資訊,所以應該多次隨機下采樣,
「資料合成」是利用已有樣本的特征相似性生成更多的樣本,
「加權」是通過不同類別的錯誤施加不同的權重懲罰,使得ML時更側重樣本較少并容易出錯的樣本,
「一分類」
當正負樣本比例失衡時候,可以利用One-class SVM,該演算法利用「高斯核函式」將樣本空間映射到「核空間」,在核空間找到一個包含「所有資料」的高維球體,如果測驗資料位于這個高維球體之「中」,則歸為多數類,否則為少數類,
?
微信搜索:我們都是碼農,點個關注不迷路啦!
?
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/34009.html
標籤:其他
