精細推導機器學習：樸素貝葉斯模型原理-有解無憂

1 - 基礎定理與定義

條件概率公式：

\[P(A|B)=\dfrac{P(AB)}{P(B)} \]
全概率公式：

\[P(A)=\sum_{j=1}^N P(AB_i)=\sum_{j=1}^N P(B_i)P(A|B_i) \]
貝葉斯公式：

\[P(B_i|A)=\dfrac{P(AB_i)}{P(A)}=\dfrac{P(B_i)P(A|B_i)}{\sum_{j=1}^N P(B_i)P(A|B_i)} \]
概率加和規則：

\[P\left(X=x_i\right)=\sum_{j=1}^N P\left(X=x_i,Y=y_j\right) \]
\[P\left(X\right)=\sum_Y P\left(X,Y\right) \]
概率乘積規則：

\[P\left(X=x_i,Y=y_j\right)=P\left(Y=y_j|X=x_i\right)P\left(X=x_i\right) \]
\[P\left(X,Y\right)=P\left(Y|X\right)P\left(X\right) \]
生成學習方法：

利用訓練資料學習\(P(X|Y)\)和\(P(Y)\)的估計，得到聯合概率分布：

\[P(X,Y)=P(Y)P(X|Y) \]
然后求得后驗概率分布\(P(Y|X)\). 具體概率估計方法可以是極大似然估計或者貝葉斯估計，

2 - 模型簡述

樸素貝葉斯(\(naive\) \(Bayes\))是基于貝葉斯定理與特征條件獨立假設的分類方法，

對于給定的訓練資料集，首先基于條件獨立假設，學習輸入輸出的聯合概率分布；然后基于此模型，對給定的輸入\(x\)，利用貝葉斯定理，求出后驗概率最大的輸出類\(y\)，

后驗概率最大等價于\(0-1\)損失函式時的期望風險最小化，

作為典型的生成學習方法，樸素貝葉斯實作簡單，學習和預測效率都很高，是一種常用模型，

以下主要介紹經典的多項式貝葉斯分類器，

3 - 模型假設

訓練集\(P(X,Y)\)獨立同分布產生
條件獨立性假設，用于分類的特征，在類確定的條件下獨立，即：

\[\begin{aligned} P\left(X=x | Y=c_{k}\right) &=P\left(X^{(1)}=x^{(1)}, \cdots, X^{(n)}=x^{(n)} | Y=c_{k}\right) \\ &=\prod_{j=1}^{n} P\left(X^{(j)}=x^{(j)} | Y=c_{k}\right) \end{aligned} \]
這是一個較強的假設，在對性能作出一些妥協的條件下，此假設使模型包含條件概率的數量大為減少，使模型的學習與預測大為簡化，從而高效而易于實作，

條件獨立性假設也可視為最簡單的有向概率圖模型，

4 - 模型主要策略

極大似然估計
最大化后驗概率

5 - 模型輸入

訓練集\(T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\}\)，\(x_i\in\mathcal{X} \subseteq \mathbf{R}^{n}\)，\(i=1,2,\dots,N\)，\(y\in\mathcal{Y}=\{c_1,c_2,\dots,c_k\}\)，\(|\mathcal{Y}|=K\)；\(x_{i}=\left(x_{i}^{(1)}, x_{i}^{(2)}, \cdots, x_{i}^{(n)}\right)^{\mathrm{T}}\)，\(x_{i}^{\left(j\right)}\)是第\(i\)個樣本的第\(j\)個特征，\(j=1,2,\dots,n\)，\(x_{i}^{\left(j\right)}\in\{a_{j1},a_{j2},\dots,a_{jS_j}\}\)，其中\(a_{jl}\)是第\(j\)個特征的第\(l\)個取值，\(l=1,2,\dots,S_j\).

另有實體\(x\).

6 - 模型推導

由假設可得

\[P\left(X=x, Y=c_{k}\right)=P\left(X=x | Y=c_{k}\right) P\left(Y=c_{k}\right)=P\left(Y=c_{k} | X=x\right) P(X=x) \]

取后兩個等式，處理變換得：

\[\begin{aligned} P\left(Y=c_{k} | X=x\right) &=\frac{P\left(X=x | Y=c_{k}\right) P\left(Y=c_{k}\right)}{P(X=x)} \\ &=\frac{P\left(X=x | Y=c_{k}\right) P\left(Y=c_{k}\right)}{\sum_{k} P\left(X=x, Y=c_{k}\right)} \\ &=\frac{P\left(X=x| Y=c_{k}\right) P\left(Y=c_{k}\right)}{\sum_{k} P\left(X=x | Y=c_{k}\right) P\left(Y=c_{k}\right)} \\ &=\frac{P\left(Y=c_{k}\right) \prod_{j=1}^{n} P\left(X^{(j)}=x^{(j)} | Y=c_{k}\right)}{\sum_{k} P\left(Y=c_{k}\right) \prod_{j=1}^{n} P\left(X^{(j)}=x^{(j)} | Y=c_{k}\right)} \end{aligned} \]

以上第二個等號使用了概率加和法則，第三個等號使用了條件概率公式，后兩個等號使用了條件獨立性假設，

樸素貝葉斯可用直接用分子表示為：

\[y=f(\mathbf{x})=\arg \max _{c_{k}} \frac{P\left(Y=c_{k}\right) \prod_{j=1}^{n} P\left(X^{(j)}=x^{(j)} | Y=c_{k}\right)}{\sum_{k} P\left(Y=c_{k}\right) \prod_{j=1}^{n} P\left(X^{(j)}=x^{(j)} | Y=c_{k}\right)} \]

注意到在公式\((10)\)中，分母的值對所有的\(c_k\)都相等，因此可舍去分母，得到：

\[y=\arg \max _{c_k} P\left(Y=c_{k}\right) \prod_{j} P\left(X^{(j)}=x^{(j)} | Y=c_{k}\right) \]

7 - 引數估計

極大似然估計

先驗概率：

\[P\left(Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)}{N}, \quad k=1,2, \cdots, K \]
條件概率：

\[\begin{array}{l}{P\left(X^{(j)}=a_{j t} | Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(x_{i}^{(j)}=a_{j l}, y_{i}=c_{k}\right)}{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)}} \\ {j=1,2, \cdots, n ; l=1,2, \cdots, S_{j}: k=1,2, \cdots, K}\end{array} \]

其中函式\(I\)為指示函式，

貝葉斯估計

如果某個屬性值在訓練集中沒有與某個類同時出現過，則使用公式\((10)\)進行概率估計則會出現\(0\)，并導致連乘氏計算的概率值也為\(0\)，為防以上情況出現，引入貝葉斯估計如下，

先驗概率：

\[P_{\lambda}\left(X^{(j)}=a_{j l} | Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(x_{i}^{(j)}=a_{j l}, y_{i}=c_{k}\right)+\lambda}{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)+S_{j} \lambda} \]
式中\(\lambda \geqslant 0\).
條件概率：

\[P_{\lambda}\left(Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)+\lambda}{N+K \lambda} \]

當\(\lambda=0\)時，即等價為極大似然估計，

常用\(\lambda=1\)，稱為拉普拉斯平滑，

考慮公式\((14)\)，對于任何\(l=1,2, \cdots, S_{j}, \quad k=1,2, \cdots, K\)，都有

\[\begin{array}{l}{P_{\lambda}\left(X^{(j)}=a_{j l} | Y=c_{k}\right)>0} \\ {\sum_{l=1}^{s_{j}} P\left(X^{(j)}=a_{j l} | Y=c_{k}\right)=1}\end{array} \]

可見確實是一種分布，公式\((15)\)同理，拉普拉斯平滑的實質是假設屬性值與類別是均勻分布，這是額外引入的關于資料先驗，它修正了訓練集樣本不充分而導致概率值為\(0\)的問題，且在訓練集變大時，修正引入的先驗影響也會逐漸變得可以忽略，

8 - 演算法流程（極大似然估計）

輸入：見5. 另有實體\(x\).

輸出：實體\(x\)的分類.

計算先驗概率與條件概率：

先驗概率（共計\(K\)個式子）：

\[P\left(Y=c_{k}\right)=P\left(Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)}{N} \]
條件概率（共計\(k\sum_{j=1}^{n}S_j\)個式子）：

\[\begin{array}{l}{P\left(X^{(j)}=a_{j t} | Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(x_{i}^{(j)}=a_{j l}, y_{i}=c_{k}\right)}{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)}} \\ {j=1,2, \cdots, n ; l=1,2, \cdots, S_{j}: k=1,2, \cdots, K}\end{array} \]

對于給定實體\(x=\left(x_{i}^{(1)}, x_{i}^{(2)}, \cdots, x_{i}^{(n)}\right)^{\mathrm{T}}\)，計算：

\[P\left(Y=c_{k}\right) \prod_{j=1}^{n} P\left(X^{(j)}=x^{(j)} | Y=c_{k}\right), \quad k=1,2, \cdots, K \]
確定實體\(x\)的分類：

\[y=\arg \max _{a} P\left(Y=c_{k}\right) \prod_{j=1}^{n} P\left(X^{(j)}=x^{(j)} | Y=c_{k}\right) \]

9 - 高斯貝葉斯分類器

以上是基礎的多項式貝葉斯分類器，用于自變數均為離散值的情況，

如果資料集中的自變數均為連續的數值型資料，則選擇本章的高斯貝葉斯分類器，

假設自變數特征\(x^{\left(j\right)}\)服從高斯分布，即：

\[P\left(x^{\left(j\right)} | c_{k}\right) \sim \mathcal{N}\left(\mu_{j,k}, \sigma_{j,k}^{2}\right) \]

其中\(\mu_{j,k}\)和\(\sigma_{j,k}\)為訓練集中特征\(x^{\left(j\right)}\)屬于類別\(c_{k}\)的均值和標準差，則條件概率可以表示為：

\[P\left(x^{\left(j\right)} | Y=c_k\right)=\frac{1}{\sqrt{2 \pi} \sigma_{j,k}} \exp \left(-\frac{\left(x^{\left(j\right)}-\mu_{j,k}\right)^{2}}{2 \sigma_{j,k}^{2}}\right) \]

其他步驟與思想不變，參考多項式貝葉斯分類器即可，

10 - 伯努利貝葉斯分類器

在某些任務，如文本挖掘中，特征\(x^{\left(j\right)}\)均為\(0-1\)二元值，此時優選伯努利貝葉斯分類器，

假設特征\(x^{\left(j\right)}\)的條件概率為滿足伯努利分布，

設特征\(x^{\left(j\right)}\in\{0,1\}\)，則記：

\[p=P\left(X^{(j)}=1| Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(x_{i}^{(j)}=1, Y=c_{k}\right)+\lambda}{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)+K \lambda} \]

因此可將條件概率寫為：

\[P(X^{\left(j\right)}=x^{\left(j\right)}|Y=c_k)=p \cdot x^{\left(j\right)}+(1-p)\cdot(1-x^{\left(j\right)}) \]

其他步驟與思想不變，參考多項式貝葉斯分類器即可，

11 - 番外：為何沒有出現損失函式？

以下證明期望風險最小化等價于后驗概率最大化，

設選擇\(0-1\)損失函式：

\[L(Y, f(X))=\left\{\begin{array}{ll}{1,} & {Y \neq f(X)} \\ {0,} & {Y=f(X)}\end{array}\right. \]

式中\(f(X)\)為分類決策函式，此時期望風險為：

\[R_{\mathrm{exp}}(f)=E[L(Y, f(X))] \]

期望是對聯合分布\(P(X,Y)\)取的，因此再取條件期望：

\[R_{\mathrm{exp}}(f)=E_{X} \sum_{k=1}^{K}\left[L\left(c_{k}, f(X)\right)\right] P\left(c_{k} | X\right) \]

為使期望風險最小化，需要對\(X=x\)逐個極小化，即：

\[\begin{aligned} f(x) &=\arg \min _{y \in \mathcal{Y}} \sum_{k=1}^{K} L\left(c_{k}, y\right) P\left(c_{k} | X=x\right) \\ &=\arg \min _{y \in \mathcal{Y}} \sum_{k=1}^{K} P\left(y \neq c_{k} | X=x\right) \\ &=\arg \min _{y \in \mathcal{Y}}\left(1-P\left(y=c_{k} | X=x\right)\right) \\ &=\arg \max _{y \in \mathcal{Y}} P\left(y=c_{k} | X=x\right) \end{aligned} \]

注意從第一行到第二個行，對于損失函式\(L(c_k,y)\)，如果\(y=c_k\)，則損失函式\(L(c_k,y)=0\)，后一項也同時失效，只有當\(y\neq c_k\)時，損失函式\(L(c_k,y)=1\)，后一項才有效，因此后一項也可以寫成第二行的形式以簡化算式，從第二行到第三行也容易理解，從第三行到第四行可以注意到\(\arg\min\)變成了\(\arg\max\)，已經從損失函式最大小化轉化為后驗概率最大化，可知期望風險最小化等價于樸素貝葉斯采用的后驗概率最大化：

\[f(x)=\arg \max _{c_{k}} P\left(Y=c_{k} | X=x\right) \]

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/67692.html

標籤：其他

上一篇：高德在提升定位精度方面的探索和實踐

下一篇：LeetCode初級演算法--樹01：二叉樹的最大深度