模型
生成模型介紹
我們定義樣本空間為\(\mathcal{X} \subseteq \mathbb{R}^n\),輸出空間為\(\mathcal{Y} = \{c_1, c_2, ..., c_K\}\),\(\textbf{X}\)為輸入空間上的隨機向量,其取值為\(\textbf{x}\),滿足\(\textbf{x} \in \mathcal{X}\);\(Y\)為輸出空間上的隨機變數,設其取值為\(y\),滿足\(y \in \mathcal{Y}\),我們將容量為\(m\)的訓練樣本表示為:
\[\begin{aligned} D = \{\{\textbf{x}^{(1)}, y^{(1)}\}, \{\textbf{x}^{(2)}, y^{(2)}\},..., \{\textbf{x}^{(m)}, y^{(m)}\}\} \end{aligned}\tag{1} \]\[ \]我們遵循機器學習的一個基本假設,即訓練樣本是從一個未知的總體分布\(P(\textbf{X} = \textbf{x}, Y=y)\)中采樣產生,且訓練樣本獨立同分布,
我們采取概率模型的視角,即將分類模型表示為條件概率分布\(P(Y=y|\textbf{X}=\textbf{x})\),而依據分布\(P(Y=y|\textbf{X}=\textbf{x})\)的求解可將模型分為判別模型和生成模型,判別模型直接對條件概率分布\(P(Y=y|\textbf{X}=\textbf{x})\)進行引數估計(估計方法可采用極大似然估計或貝葉斯估計);而生成模型則利用條件概率公式\(P(Y=y|\textbf{X}=\textbf{x}) = \frac{P(\textbf{X}=\textbf{x}, Y=y)}{P(\textbf{X}=\textbf{x})}\)來計算分布,分子\(P(\textbf{X}=\textbf{x}, Y=y)\)是一個聯合概率分布,能夠還原出聯合概率分布\(P(\textbf{X}=\textbf{x}, Y=y)\)是生成模型的一大特性,
樸素貝葉斯模型推導
我們對分子繼續運用條件概率公式,進一步得到
\[\begin{aligned} P(Y=y|\textbf{X}=\textbf{x}) = \frac{P(\textbf{X}=\textbf{x}|Y=y)P(Y=y)}{P(\textbf{X}=\textbf{x})} \end{aligned} \tag{2} \]這個公式即大名鼎鼎的貝葉斯公式, 這里我們采用貝葉斯學派的視角,將\(P(Y=y)\)稱為先驗概率分布,表示在資料觀測之前對\(Y\)的信念;\(P(Y = y|\textbf{X}=\textbf{x})\)稱為后驗概率分布,表示經過觀測資料\(\textbf{X}\)(也稱“證據”)校正后對\(Y\)的信念,注意不要和和貝葉斯估計中引數\(\theta\)的先驗和后驗分布搞混了,貝葉斯估計也應用了貝葉斯公式,但先驗概率分布和后驗概率分布的實際含義與這里完全不同,
我們再將分母運用全概率公式展開,我們得到
\[\begin{aligned} P(Y=y|\textbf{X}=\textbf{x})= \frac{P(\textbf{X}=\textbf{x}|Y=y)P(Y=y)}{\sum_{y\in \mathcal{Y}}P(\textbf{X}=\textbf{x}|Y=y)P(Y=y)} \end{aligned}\tag{3} \]這意味著我們只需要學習概率分布\(P(Y=y)\)和\(P(\textbf{X}=\textbf{x}|Y=y)\),而無需關心\(P(\textbf{X}=\textbf{x})\),
將隨機向量\(\textbf{x}\)沿著其特征維度展開,我們繼續得到
\[\begin{aligned} P(\textbf{X} = \textbf{x} | Y = y) = P(X_1 = x_1, ..., X_n = x_n | Y=y), \quad n \text{為特征維度} \end{aligned}\tag{4} \]這里我們為了簡單起見,假設樣本屬性是離散的,\(x_j\)的屬性集為\(A_j=\{a_1, a_2,..., a_{N_j}\}\),滿足\(x_j \in A_j\),可以看出,條件概率分布\(P(\textbf{X}=\textbf{x}|Y=y)\)的引數總量是指數級的(\(x_j\)的屬性集\(A_j\)大小為\(N_j\),\(j=1, 2, ..., n\),\(Y\)可取值有\(K\)個,那么引數個數為\(K \prod_{j=1}^{n}N_j\)),不能對其直接進行引數估計,
因此,我們決定對原本擁有指數級引數數量的分布進行拆分,這里,樸素貝葉斯法做出了條件獨立性假設:樣本特征在類確定的條件下條件獨立(這也是“樸素”(Naive)一詞的得名),這樣我們就能將原本擁有龐大引數的概率分布進行拆分:
\[\begin{aligned} P(\textbf{X} = \textbf{x} | Y=y) = P(X_1 = x_1, ..., X_n = x_n | Y=y) = \prod_{j=1}^nP(X_j = x_j | Y = y) \end{aligned}\tag{5} \]這樣,我們就可以對\(P(\textbf{X} | Y=y)\)分布進行高效的引數估計,之后,我們對于輸入樣本\(\textbf{x}\),計算概率分布\(P(Y=y|\textbf{X}=\textbf{x})\):
\[\begin{aligned} P(Y=y|\textbf{X}=\textbf{x})= \frac{P(\textbf{X}=\textbf{x}|Y=y)P(Y=y)}{\sum_{ y \in \mathcal{Y}}P(\textbf{X}=\textbf{x}|Y=y)P(Y=y)} = \frac{\prod_{j=1}^nP(X_j = x_j | Y=y)P(Y=y)}{\sum_{y \in \mathcal{Y}}[ \prod_{j=1}^nP(X_j = x_j | Y=y)P(Y=y) ]} \end{aligned}\tag{6} \]我們采取后驗概率最大化原則(即最終的輸出分類取使條件概率最大的那個),設\(f(\textbf{x})\)為分類決策函式,即
\[\begin{aligned} y = f(\textbf{x}) = \mathop{\arg\max}_{y} P(Y = y|\textbf{X}=\textbf{x})=\mathop{\arg\max}_{y}\frac{\prod_{j=1}^nP(X_j = x_j | Y=y)P(Y=y)}{\sum_{y \in \mathcal{Y}}[ \prod_{j=1}^nP(X_j = x_j | Y=y)P(Y=y) ]} \end{aligned}\tag{7} \]我們發現,不管\(y\)取何值,式\((7)\)中分母總是恒定的,因此我們可以將式\((7)\)化簡為
\[\begin{aligned} y = f(\textbf{x}) = \mathop{\arg\max}_{y} P(Y=y|\textbf{X}=\textbf{x}) = \mathop{\arg\max}_{y}\prod_{j=1}^nP(X_j = x_j | Y=y)P(Y=y) \end{aligned}\tag{8} \]這就是樸素貝葉斯模型分類決策函式的最終運算式,
引數估計
極大似然估計
如式\((8)\)中所述,我們需要對先驗概率分布\(P(Y=y)\)和條件概率分布\(P(X_j = x_j|Y=y)\)進行引數估計,根據極大似然估計(具體的推導程序可以參見李航《統計學習方法》中的習題解答),我們可以運用訓練集\(D\)將先驗概率分布\(P(Y=y)\)估計為
\[\begin{aligned} P(Y=y) = \frac{\sum_{i=1}^m(y^{(i)} = y)}{m}, \quad m \text{為}D \text{中樣本個數} \end{aligned} \tag{9} \]同樣,條件概率分布\(P(X_j = x_j|Y=y)\)的估計為
\[\begin{aligned} P(X_j = x_j | Y=y) = \frac{P(X_j = x_j, Y = y)}{P(Y = y)} = \frac{\sum_{i=1}^{m}I(x_j^{(i)} =x_j, y^{(i)}=y)}{\sum_{i=1}^{m}I(y^{(i)}=y)} , \quad m \text{為}D \text{中樣本個數} \end{aligned} \tag{10} \]貝葉斯估計(平滑修正)
觀察式\((10)\)可知,如果訓練集中屬性值\(x_j\)和類\(y\)沒有同時出現過,即\(P(X_j=x_j, Y=y)=0\),那么\(P(X_j = x_j | Y=y)=0\)會直接導致連乘式,這就意味著不管其他屬性如何,哪怕其他屬性明顯符合要求,樣本\(\prod_{j=1}^nP(X_j = x_j | Y=y)=0\) ,\(\textbf{x}\)屬于類\(y\)的概率都會被判為0,這明顯不太合理,
因此,為了避免其他屬性攜帶的資訊被訓練集中未出現的屬性值“抹去”,我們采用貝葉斯估計,等價于在估計概率值時通常進行“平滑”(smoothing)(具體的推導程序可以參見李航《統計學習方法》中的習題解答),即令式\((10)\)修正為
\[\begin{aligned} P_{\lambda}(X_j = x_j|Y=y) = \frac{\sum_{i=1}^{m}I(x_j^{(i)} =x_j, y^{(i)}=y) + \lambda}{\sum_{i=1}^{m}I(y^{(i)}=y)+N_j \lambda}, \quad \lambda > 0, \quad N_j\text{為屬性}x_j\text{可能的取值數} \end{aligned} \tag{11} \]我們常取\(\lambda=1\),這時稱為拉普拉斯平滑(Laplacian smoothing),
類似地,式\((9)\)中先驗概率被修正為:
\[\begin{aligned} P_\lambda(Y=y) = \frac{\sum_{i=1}^m(y^{(i)} = y)+\lambda}{m+K\lambda}, \quad \lambda > 0, \quad K\text{為標簽}y\text{可能的取值數} \end{aligned} \tag{12} \]可以看出,拉普拉斯平滑解決了訓練集樣本數不足導致的概率值為 0 的問題,拉普拉斯修正實際上假設了屬性值與類別均勻分布,這是在引數估計的程序中額外引入的關于資料的先驗 (prior),當樣本容量趨近于無窮時,我們發現修正程序所引入的先驗的影響也趨近于 0,使得計算的概率值趨近于實際的概率值,
演算法
在實際的應用中,樸素貝葉斯模型有兩種訓練方式,
若使用的場景對模型的預測速度要求較高,在給定訓練集\(D\)的情況下,我們將概率分布\(P_\lambda(Y=y)\)和概率分布\(P_{\lambda}(X_j = x_j|Y=y)\)所有可能的取值(\(y\in \mathcal{Y}\),\(x_j \in A_j\),\(A_j\)為樣本屬性取值集合)都計算出來存好,然后在測驗樣本\(\textbf{x}^{*}\)來了之后,通過“查表”的方式將對應的概率值檢索出來,然后再對其類別進行判別,這樣,我們計算概率分布\(P_\lambda(Y=y)\)和概率分布\(P_{\lambda}(X_j = x_j|Y=y)\)所有可能取值的程序即對樸素貝葉斯模型進行顯式訓練的程序,訓練演算法如下:

然后,在對給定輸入樣本\(x^{*}\)進行判別時,按照下式進行判別:
如果我們不斷有新的訓練資料產生,可以采用“懶惰學習”(lazy learning)的方法,先不進行任何訓練,測驗樣本來了之后再依照測驗樣本的屬性\(x_j^{*}\)和當前資料集的狀況來計算單點概率,這樣可以避免對所有可能的屬性都計算單點概率,若訓練資料不斷增加,則可在現有計算結果的基礎上,僅僅對新增樣本的屬性值所涉及的單點概率進行計數修正,這樣可以實作“增量學習”,
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/294376.html
標籤:其他
下一篇:阿里云NAS檔案遷移專案實踐
