Lda線性判別分析引數說明
一、引數
1、 Solver---求超平面特征矩陣的方法
① Svd奇異值分解法
默認解算器為“svd”。它可以執行分類和它不依賴于協方差矩陣的 計算。這在功能數量眾多的情況下是一個優勢。Svd能起到壓縮資料集的作用,提取資料集中重要資訊再進行降維處理,特征非常多時推薦使用這種方法。這種方法的缺點就是不能進行shrinkage正則化,容易造成過度擬合即失真
② Lsqr最小二乘法
最小平方解,直接基于判別函式的最優決策規則。它只能用于分類(可選收縮),因為不執行特征向量的估計。因此,維度不支持使用轉換進行縮減。可以進行shrinkage
③ Eigen特征分解法
區別于svd,特征值分解法適用于N階方陣,特征值求解器計算瑞利方程的最優解系數(基本上是類間分散與類內分散的比率類散點)。此解算器同時支持分類和降維(可選收縮)。能通過shrinkage進行正則化處理防止過度擬合
由于本專案僅做降維處理,不進行分類處理不存在過擬合現象,故不能選用最小二乘法,再者相位元征分解法在計算程序中需要計算協方差矩陣計算量較大,svd計算量更小,故此引數Solver選用默認值svd
2、 Shrinkage---正則化引數
正則化引數,可以增強LDA分類的泛化能力。如果僅僅是為了降維,則可以忽略這個引數。默認值是None,即不進行正則化。可以選擇"auto",讓演算法自己決定是否正則化。當然也可以選擇不同的[0,1]之間的值進行交叉驗證調參。由于本專案僅僅用于將維處理,故不輸入,即選默認值none
3、 Priors---類別權重
類別權重,在做分類模型時可以指定不同類別的權重,進而影響分類模型的建立。降維時一般不需要關注這個引數,故不輸入使用默認值
4、 n_components---進行Lda降維時降到的維度
進行LDA降維時降到的維度。在降維時需要輸入這個引數。可選值只能為[1,類別數-1)范圍之間的整數。本專案將二維資料集降維到一維,故這里選擇1.
5、 Store_covariance---儲存協方差
如果要另外計算類協方差矩陣(默認為False),此引數選bool,使用只在“svd”解算器中。我們這個專案是對klearn資料集的尾花資料集進行降維處理,不必計算協方差矩陣,故此處使用默認值false
6、 Tol---浮動
默認值為0.0001,svd求解器中用于秩估計的閾值,
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/120468.html
上一篇:求助,如何將pcap報文里的ipv4地址改為ipv6
下一篇:spring官網筆記1
