Lda線性判別分析引數說明-有解無憂

Lda線性判別分析引數說明
一、引數
1、 Solver---求超平面特征矩陣的方法
① Svd奇異值分解法
默認解算器為“svd”。它可以執行分類和它不依賴于協方差矩陣的計算。這在功能數量眾多的情況下是一個優勢。Svd能起到壓縮資料集的作用，提取資料集中重要資訊再進行降維處理，特征非常多時推薦使用這種方法。這種方法的缺點就是不能進行shrinkage正則化，容易造成過度擬合即失真
② Lsqr最小二乘法
最小平方解，直接基于判別函式的最優決策規則。它只能用于分類（可選收縮），因為不執行特征向量的估計。因此，維度不支持使用轉換進行縮減。可以進行shrinkage
③ Eigen特征分解法
區別于svd，特征值分解法適用于N階方陣，特征值求解器計算瑞利方程的最優解系數（基本上是類間分散與類內分散的比率類散點）。此解算器同時支持分類和降維（可選收縮）。能通過shrinkage進行正則化處理防止過度擬合
由于本專案僅做降維處理，不進行分類處理不存在過擬合現象，故不能選用最小二乘法，再者相位元征分解法在計算程序中需要計算協方差矩陣計算量較大，svd計算量更小，故此引數Solver選用默認值svd
2、 Shrinkage---正則化引數
正則化引數，可以增強LDA分類的泛化能力。如果僅僅是為了降維，則可以忽略這個引數。默認值是None，即不進行正則化。可以選擇"auto"，讓演算法自己決定是否正則化。當然也可以選擇不同的[0,1]之間的值進行交叉驗證調參。由于本專案僅僅用于將維處理，故不輸入，即選默認值none
3、 Priors---類別權重
類別權重，在做分類模型時可以指定不同類別的權重，進而影響分類模型的建立。降維時一般不需要關注這個引數，故不輸入使用默認值
4、 n_components---進行Lda降維時降到的維度
進行LDA降維時降到的維度。在降維時需要輸入這個引數。可選值只能為[1,類別數-1)范圍之間的整數。本專案將二維資料集降維到一維，故這里選擇1.
5、 Store_covariance---儲存協方差
如果要另外計算類協方差矩陣（默認為False），此引數選bool，使用只在“svd”解算器中。我們這個專案是對klearn資料集的尾花資料集進行降維處理，不必計算協方差矩陣，故此處使用默認值false
6、 Tol---浮動
默認值為0.0001，svd求解器中用于秩估計的閾值，

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/120468.html

標籤：腳本語言(Perl/Python)

上一篇：求助，如何將pcap報文里的ipv4地址改為ipv6

下一篇：spring官網筆記1