判別模型與生成模型.

考慮一個0-1標簽的二分類問題，假設0代表螞蟻，1代表大象，
【Logistic Regression】給定一組資料集，邏輯回歸能夠學習到一個分類器，當一個新樣本 x x x 到來時，它能夠給出該樣本屬于每一類的概率，并選擇其中概率更大的那一個作為預測分類輸出，邏輯回歸分類器對條件概率 P ( y ∣ x ) P(y|x) P(y∣x) 進行建模，嘗試找到一個分類邊界，能夠將兩類樣本分隔開，最終處理得到一個從輸入特征空間到類標簽{0,1}的映射，
【Another approach】首先關注代表大象的那一部分資料，學習一個模型E來表示大象是什么樣；然后關注表示螞蟻的那一部分資料，再學習一個模型A來表示螞蟻是什么樣的，當一個新樣本到來時，我們將其放入模型E和模型A，看看該樣本是更像螞蟻還是大象，
像對數幾率回歸這種，直接根據樣本對標簽進行建模，即嘗試獲得 P ( y ∣ x ) P(y|x) P(y∣x) 條件概率分布的模型叫做判別學習演算法-Discriminative Learning Algorithms；而第二種思路則是著眼于不同的y，對于該類樣本的特征進行學習，也就是嘗試對 P ( x ∣ y = k ) P(x|y=k) P(x∣y=k) 進行學習(本質上是在學習聯合概率分布 P ( x , y ) P(x,y) P(x,y) )，例如y=1時，對于條件概率分布 P ( x ∣ y = 1 ) P(x|y=1) P(x∣y=1) 進行建模，這樣的模型叫做生成學習演算法-Generative Learning Algorithm，
在生成學習演算法中，如果完成了對于先驗概率分布 P ( y ) P(y) P(y) 以及條件概率分布 P ( x ∣ y ) P(x|y) P(x∣y) 的建模，就可以通過貝葉斯公式來獲得后驗概率分布 P ( y ∣ x ) P(y|x) P(y∣x)，籍此來對新樣本進行分類，貝葉斯公式如下：
分母上的概率分布 P ( x ) P(x) P(x) 可以通過全概率公式得出，不失其一般性，我們考慮上面提到的二分類問題，有如下公式：
實際的分類程序中，在完成了對于先驗概率分布 P ( y ) P(y) P(y) 以及條件概率分布 P ( x ∣ y ) P(x|y) P(x∣y) 的建模后，并不需要關心 P ( x ) P(x) P(x) 是否求出，因為選出后驗概率最大的 y y y 與其無關，

樸素貝葉斯分類器.

Naive Bayes Classifier考慮輸入特征取值都是離散值的情況，并對條件概率分布 P ( x ∣ y ) P(x|y) P(x∣y) 做出條件獨立性的假設，這是一個相當強的假設，描述如下：
假定輸入向量 x = [ x 1 , x 2 , . . , x m ] T x=[x_1,x_2,..,x_m]T x=[x1?,x2?,..,xm?]T，即共有 m m m 個特征，通過我們學習得到的貝葉斯分類器來計算其后驗概率 P ( y = c k ∣ X = x ) P(y=c_k|X=x) P(y=ck?∣X=x)，即得到如下推導：
注意上圖中 C k C_k Ck?代表類別，計算得到的后驗概率中最大的 C k C_k Ck? 就是該輸入樣本的所屬類別，分母 P ( X = x ) P(X=x) P(X=x) 對于所有的 C k C_k Ck? 而言都是相同的，所以在尋找最大值時，可以忽略，
關于條件獨立性假設(也稱樸素貝葉斯假設)，之所以說其是一個很強的假設，是因為實際中的屬性之間幾乎不存在獨立的情況，以經典應用【垃圾郵件過濾器】為例，如果這封郵件中出現了詞匯【Computer】，那么其中很大概率會出現【electronic】【science】【network】等等一系列與之有關的詞匯，也就是說 P ( n e t w o r k ∣ C o m p u t e r ) ≠ 0 P(network|Computer)≠0 P(network∣Computer)?=0，但即使有這樣一個很強的假設，實際應用中樸素貝葉斯分類器在很多問題上的表現還是很不錯，

NB-classifier引數估計.

樸素貝葉斯分類演算法中需要學習聯合概率分布 P ( X , y ) P(X,y) P(X,y)，更具體地說，需要學習先驗概率分布 P ( y ) P(y) P(y) 以及條件概率分布 P ( x ∣ y ) P(x|y) P(x∣y)，關于這兩個分布的學習，在監督學習中，一種很自然的想法是基于樣本的極大似然估計，
簡單來說就是統計樣本中的分布，將其作為真實分布的估計，構建出一個樸素貝葉斯分類器，具體公式如下：

拉普拉斯平滑.

如果輸入樣本中的某個屬性值，是訓練集中從未出現過的，那么上面給出的引數估計以及后驗概率計算就會變為：
這是一個未定式，將導致后續的預測無法進行，解決方法之一是采用Laplace Smoothing，即在基于樣本估計條件概率分布 P ( x ∣ y ) P(x|y) P(x∣y) 時在分子、分母上都加一個正常數，從而避免出現訓練集中未出現屬性值被估計為0的情況，應用拉普拉斯平滑后的貝葉斯分類器引數估計如下：

貝葉斯決策論與風險最小化.

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/232668.html

標籤：其他

上一篇：前端中的演算法1:二分查找

下一篇：VSCode Vetur版本0.31.0報錯且不能格式化Vue檔案

【ML】Naive Bayes

文章目錄

判別模型與生成模型.

樸素貝葉斯分類器.

NB-classifier引數估計.

拉普拉斯平滑.

貝葉斯決策論與風險最小化.