1 - 基礎定理與定義
-
條件概率公式:
\[P(A|B)=\dfrac{P(AB)}{P(B)} \]
-
全概率公式:
\[P(A)=\sum_{j=1}^N P(AB_i)=\sum_{j=1}^N P(B_i)P(A|B_i) \]
-
貝葉斯公式:
\[P(B_i|A)=\dfrac{P(AB_i)}{P(A)}=\dfrac{P(B_i)P(A|B_i)}{\sum_{j=1}^N P(B_i)P(A|B_i)} \]
-
概率加和規則:
\[P\left(X=x_i\right)=\sum_{j=1}^N P\left(X=x_i,Y=y_j\right) \]
\[P\left(X\right)=\sum_Y P\left(X,Y\right) \]
-
概率乘積規則:
\[P\left(X=x_i,Y=y_j\right)=P\left(Y=y_j|X=x_i\right)P\left(X=x_i\right) \]
\[P\left(X,Y\right)=P\left(Y|X\right)P\left(X\right) \]
-
生成學習方法:
利用訓練資料學習\(P(X|Y)\)和\(P(Y)\)的估計,得到聯合概率分布:
\[P(X,Y)=P(Y)P(X|Y) \]
然后求得后驗概率分布\(P(Y|X)\). 具體概率估計方法可以是極大似然估計或者貝葉斯估計,
2 - 模型簡述
樸素貝葉斯(\(naive\) \(Bayes\))是基于貝葉斯定理與特征條件獨立假設的分類方法,
對于給定的訓練資料集,首先基于條件獨立假設,學習輸入輸出的聯合概率分布;然后基于此模型,對給定的輸入\(x\),利用貝葉斯定理,求出后驗概率最大的輸出類\(y\),
后驗概率最大等價于\(0-1\)損失函式時的期望風險最小化,
作為典型的生成學習方法,樸素貝葉斯實作簡單,學習和預測效率都很高,是一種常用模型,
以下主要介紹經典的多項式貝葉斯分類器,
3 - 模型假設
-
訓練集\(P(X,Y)\)獨立同分布產生
-
條件獨立性假設,用于分類的特征,在類確定的條件下獨立,即:
\[\begin{aligned} P\left(X=x | Y=c_{k}\right) &=P\left(X^{(1)}=x^{(1)}, \cdots, X^{(n)}=x^{(n)} | Y=c_{k}\right) \\ &=\prod_{j=1}^{n} P\left(X^{(j)}=x^{(j)} | Y=c_{k}\right) \end{aligned} \]
這是一個較強的假設,在對性能作出一些妥協的條件下,此假設使模型包含條件概率的數量大為減少,使模型的學習與預測大為簡化,從而高效而易于實作,
條件獨立性假設也可視為最簡單的有向概率圖模型,
4 - 模型主要策略
- 極大似然估計
- 最大化后驗概率
5 - 模型輸入
訓練集\(T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\}\),\(x_i\in\mathcal{X} \subseteq \mathbf{R}^{n}\),\(i=1,2,\dots,N\),\(y\in\mathcal{Y}=\{c_1,c_2,\dots,c_k\}\),\(|\mathcal{Y}|=K\);\(x_{i}=\left(x_{i}^{(1)}, x_{i}^{(2)}, \cdots, x_{i}^{(n)}\right)^{\mathrm{T}}\),\(x_{i}^{\left(j\right)}\)是第\(i\)個樣本的第\(j\)個特征,\(j=1,2,\dots,n\),\(x_{i}^{\left(j\right)}\in\{a_{j1},a_{j2},\dots,a_{jS_j}\}\),其中\(a_{jl}\)是第\(j\)個特征的第\(l\)個取值,\(l=1,2,\dots,S_j\).
另有實體\(x\).
6 - 模型推導
由假設可得
\[P\left(X=x, Y=c_{k}\right)=P\left(X=x | Y=c_{k}\right) P\left(Y=c_{k}\right)=P\left(Y=c_{k} | X=x\right) P(X=x) \]
取后兩個等式,處理變換得:
\[\begin{aligned} P\left(Y=c_{k} | X=x\right) &=\frac{P\left(X=x | Y=c_{k}\right) P\left(Y=c_{k}\right)}{P(X=x)} \\ &=\frac{P\left(X=x | Y=c_{k}\right) P\left(Y=c_{k}\right)}{\sum_{k} P\left(X=x, Y=c_{k}\right)} \\ &=\frac{P\left(X=x| Y=c_{k}\right) P\left(Y=c_{k}\right)}{\sum_{k} P\left(X=x | Y=c_{k}\right) P\left(Y=c_{k}\right)} \\ &=\frac{P\left(Y=c_{k}\right) \prod_{j=1}^{n} P\left(X^{(j)}=x^{(j)} | Y=c_{k}\right)}{\sum_{k} P\left(Y=c_{k}\right) \prod_{j=1}^{n} P\left(X^{(j)}=x^{(j)} | Y=c_{k}\right)} \end{aligned} \]
以上第二個等號使用了概率加和法則,第三個等號使用了條件概率公式,后兩個等號使用了條件獨立性假設,
樸素貝葉斯可用直接用分子表示為:
\[y=f(\mathbf{x})=\arg \max _{c_{k}} \frac{P\left(Y=c_{k}\right) \prod_{j=1}^{n} P\left(X^{(j)}=x^{(j)} | Y=c_{k}\right)}{\sum_{k} P\left(Y=c_{k}\right) \prod_{j=1}^{n} P\left(X^{(j)}=x^{(j)} | Y=c_{k}\right)} \]
注意到在公式\((10)\)中,分母的值對所有的\(c_k\)都相等,因此可舍去分母,得到:
\[y=\arg \max _{c_k} P\left(Y=c_{k}\right) \prod_{j} P\left(X^{(j)}=x^{(j)} | Y=c_{k}\right) \]
7 - 引數估計
- 極大似然估計
-
先驗概率:
\[P\left(Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)}{N}, \quad k=1,2, \cdots, K \]
-
條件概率:
\[\begin{array}{l}{P\left(X^{(j)}=a_{j t} | Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(x_{i}^{(j)}=a_{j l}, y_{i}=c_{k}\right)}{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)}} \\ {j=1,2, \cdots, n ; l=1,2, \cdots, S_{j}: k=1,2, \cdots, K}\end{array} \]
其中函式\(I\)為指示函式,
- 貝葉斯估計
如果某個屬性值在訓練集中沒有與某個類同時出現過,則使用公式\((10)\)進行概率估計則會出現\(0\),并導致連乘氏計算的概率值也為\(0\),為防以上情況出現,引入貝葉斯估計如下,
-
先驗概率:
\[P_{\lambda}\left(X^{(j)}=a_{j l} | Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(x_{i}^{(j)}=a_{j l}, y_{i}=c_{k}\right)+\lambda}{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)+S_{j} \lambda} \]
式中\(\lambda \geqslant 0\).
-
條件概率:
\[P_{\lambda}\left(Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)+\lambda}{N+K \lambda} \]
當\(\lambda=0\)時,即等價為極大似然估計,
常用\(\lambda=1\),稱為拉普拉斯平滑,
考慮公式\((14)\),對于任何\(l=1,2, \cdots, S_{j}, \quad k=1,2, \cdots, K\),都有
\[\begin{array}{l}{P_{\lambda}\left(X^{(j)}=a_{j l} | Y=c_{k}\right)>0} \\ {\sum_{l=1}^{s_{j}} P\left(X^{(j)}=a_{j l} | Y=c_{k}\right)=1}\end{array} \]
可見確實是一種分布,公式\((15)\)同理,拉普拉斯平滑的實質是假設屬性值與類別是均勻分布,這是額外引入的關于資料先驗,它修正了訓練集樣本不充分而導致概率值為\(0\)的問題,且在訓練集變大時,修正引入的先驗影響也會逐漸變得可以忽略,
8 - 演算法流程(極大似然估計)
輸入:見5. 另有實體\(x\).
輸出:實體\(x\)的分類.
- 計算先驗概率與條件概率:
-
先驗概率(共計\(K\)個式子):
\[P\left(Y=c_{k}\right)=P\left(Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)}{N} \]
-
條件概率(共計\(k\sum_{j=1}^{n}S_j\)個式子):
\[\begin{array}{l}{P\left(X^{(j)}=a_{j t} | Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(x_{i}^{(j)}=a_{j l}, y_{i}=c_{k}\right)}{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)}} \\ {j=1,2, \cdots, n ; l=1,2, \cdots, S_{j}: k=1,2, \cdots, K}\end{array} \]
-
對于給定實體\(x=\left(x_{i}^{(1)}, x_{i}^{(2)}, \cdots, x_{i}^{(n)}\right)^{\mathrm{T}}\),計算:
\[P\left(Y=c_{k}\right) \prod_{j=1}^{n} P\left(X^{(j)}=x^{(j)} | Y=c_{k}\right), \quad k=1,2, \cdots, K \]
-
確定實體\(x\)的分類:
\[y=\arg \max _{a} P\left(Y=c_{k}\right) \prod_{j=1}^{n} P\left(X^{(j)}=x^{(j)} | Y=c_{k}\right) \]
9 - 高斯貝葉斯分類器
以上是基礎的多項式貝葉斯分類器,用于自變數均為離散值的情況,
如果資料集中的自變數均為連續的數值型資料,則選擇本章的高斯貝葉斯分類器,
假設自變數特征\(x^{\left(j\right)}\)服從高斯分布,即:
\[P\left(x^{\left(j\right)} | c_{k}\right) \sim \mathcal{N}\left(\mu_{j,k}, \sigma_{j,k}^{2}\right) \]
其中\(\mu_{j,k}\)和\(\sigma_{j,k}\)為訓練集中特征\(x^{\left(j\right)}\)屬于類別\(c_{k}\)的均值和標準差,則條件概率可以表示為:
\[P\left(x^{\left(j\right)} | Y=c_k\right)=\frac{1}{\sqrt{2 \pi} \sigma_{j,k}} \exp \left(-\frac{\left(x^{\left(j\right)}-\mu_{j,k}\right)^{2}}{2 \sigma_{j,k}^{2}}\right) \]
其他步驟與思想不變,參考多項式貝葉斯分類器即可,
10 - 伯努利貝葉斯分類器
在某些任務,如文本挖掘中,特征\(x^{\left(j\right)}\)均為\(0-1\)二元值,此時優選伯努利貝葉斯分類器,
假設特征\(x^{\left(j\right)}\)的條件概率為滿足伯努利分布,
設特征\(x^{\left(j\right)}\in\{0,1\}\),則記:
\[p=P\left(X^{(j)}=1| Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(x_{i}^{(j)}=1, Y=c_{k}\right)+\lambda}{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)+K \lambda} \]
因此可將條件概率寫為:
\[P(X^{\left(j\right)}=x^{\left(j\right)}|Y=c_k)=p \cdot x^{\left(j\right)}+(1-p)\cdot(1-x^{\left(j\right)}) \]
其他步驟與思想不變,參考多項式貝葉斯分類器即可,
11 - 番外:為何沒有出現損失函式?
以下證明期望風險最小化等價于后驗概率最大化,
設選擇\(0-1\)損失函式:
\[L(Y, f(X))=\left\{\begin{array}{ll}{1,} & {Y \neq f(X)} \\ {0,} & {Y=f(X)}\end{array}\right. \]
式中\(f(X)\)為分類決策函式,此時期望風險為:
\[R_{\mathrm{exp}}(f)=E[L(Y, f(X))] \]
期望是對聯合分布\(P(X,Y)\)取的,因此再取條件期望:
\[R_{\mathrm{exp}}(f)=E_{X} \sum_{k=1}^{K}\left[L\left(c_{k}, f(X)\right)\right] P\left(c_{k} | X\right) \]
為使期望風險最小化,需要對\(X=x\)逐個極小化,即:
\[\begin{aligned} f(x) &=\arg \min _{y \in \mathcal{Y}} \sum_{k=1}^{K} L\left(c_{k}, y\right) P\left(c_{k} | X=x\right) \\ &=\arg \min _{y \in \mathcal{Y}} \sum_{k=1}^{K} P\left(y \neq c_{k} | X=x\right) \\ &=\arg \min _{y \in \mathcal{Y}}\left(1-P\left(y=c_{k} | X=x\right)\right) \\ &=\arg \max _{y \in \mathcal{Y}} P\left(y=c_{k} | X=x\right) \end{aligned} \]
注意從第一行到第二個行,對于損失函式\(L(c_k,y)\),如果\(y=c_k\),則損失函式\(L(c_k,y)=0\),后一項也同時失效,只有當\(y\neq c_k\)時,損失函式\(L(c_k,y)=1\),后一項才有效,因此后一項也可以寫成第二行的形式以簡化算式,從第二行到第三行也容易理解,從第三行到第四行可以注意到\(\arg\min\)變成了\(\arg\max\),已經從損失函式最大小化轉化為后驗概率最大化,可知期望風險最小化等價于樸素貝葉斯采用的后驗概率最大化:
\[f(x)=\arg \max _{c_{k}} P\left(Y=c_{k} | X=x\right) \]
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/67692.html
標籤:其他
