一、兩個簡單的栗子

第一顆栗子

有兩個外形完全相同且不透明的黑箱子，甲箱子里裝有99個白球和1個黑球，乙箱子里裝有1個白球和99個黑球，一次試驗里隨機選中一個箱子，然后從中取出一個球發現是黑球，請問，這個箱子最有可能是哪個箱子？

很顯然，人們最直觀的感覺是這個黑球最有可能是從甲箱子里取出來的，因為甲箱子里的黑球多呀，這個推斷符合人們的日常經驗，這里的最有可能就是“最大似然（maximum-likelihood）”的意思，而這個問題答案背后的原理就是“最大似然原理”，

第二顆栗子

我們來看下用于決策的經典公式之一貝葉斯公式：

\[p( w | x ) = \frac{p( x | w ) \cdot p( w ) }{ p( x ) } \]

在機器學習當中，其中$p(w)$稱為先驗概率，$p(x|w)$稱為類條件概率，$p(w|x)$稱為后驗概率，后驗概率表示的某事發生了那該事件屬于某一類的概率，這個概率越大我們越有理由把該事件劃分到這一類中，

以上的表述比較抽象，我們用一個相對實際的例子說明下，夏天到了，我們想調查一下附近一個廣場上穿涼鞋遛彎的情況，已知這個廣場上男女比例大約在2：1，然后男生穿涼鞋出門的概率大約在1/2，而女生穿涼鞋出門的概率大約在2/3，我們看見前方有一個人腳上光溜溜的似乎是一雙涼鞋，那么這個人是男生的概率是多少？是女生的概率是多少？

記廣場上出現男生的概率$p(w_1)=2/3$，出現女生的概率$p(w_1)=1/3$，記男生穿涼鞋的概率為$p(x|w_1)=1/2$，女生穿穿涼鞋的概率為$p(x|w_2)=2/3$，這就是先驗概率，現在需要求解的概率實際上是后驗概率$p(w_1|x)$和$p(w_2|x)$，

我們首先計算廣場上有人穿涼鞋的概率：

\[p(x) =p(x|w_1)p(w_1) + p(x|w_2)p(w_2) = \frac{5}{9} \]

根據貝葉斯公式可得:

\[p(w_1|x) = \frac{p(x|w_1) \cdot p(w_1)}{p(x)} = \frac{3}{5} \\ p(w_2|x) = \frac{p(x|w_2) \cdot p(w_2)}{p(x)} = \frac{2}{5} \]

二、問題引出

以上的舉例都比較簡單，在實際問題并不都是這么幸運的，往往先驗概率和條件概率都是未知的，根據僅有的樣本資料進行分類時，一種可行的辦法是我們需要先對先驗概率和條件概率進行估計，然后再套用貝葉斯公式，像穿不穿涼鞋、是男是女這類離散有限隨機變數的分布似憾訓能通過統計來估計，如果是連續型隨機變數，我們就要對它的概率密度進行估計，然而困難還不止于此，像卷積神經網路等機器學習演算法中隨機變數幾乎都是多維的，也有可能出現樣本數量有限的問題，

問題似乎有點棘手，但解決辦法總會有的，既然估計隨機變數的分布在某些情況下較難，我們不妨先假設隨機變數服從某種分布，然后對分布引數進行估計，最后通過樣本校驗估計出的分布是否合適，在這種思路下，最大似然估計就是其中一種可行的方法，總結起來，最大似然估計的目的就是：利用已知的樣本結果，反推最有可能（最大概率）導致這樣結果的引數值，

三、最大似然估計的原理

最大似然估計是建立在最大似然原理的基礎上的一個統計方法，是概率論在統計學中的應用，最大似然估計提供了一種給定觀察資料來評估模型引數的方法，即：“模型已定，引數未知”，通過若干次試驗，觀察其結果，利用試驗結果得到某個引數值能夠使樣本出現的概率為最大，則稱為最大似然估計，

對于隨機變數$X$，我們想要對它的分布進行估計，為此我們對X進行了n次觀察獲取了樣本集$D = \{x_1, x_2, ..., x_n \}$，其中每個樣本都是獨立同分布的，我們假設X服從引數為$ \theta$的某種分布并給出似然函式的定義：

定義1 (似然函式，likelihood function) 聯合概率密度函式$f(D| \theta)$稱為相對于樣本集$D = \{x_1, x_2, ..., x_n \}$的$ \theta$的似然函式，記為$l( \theta)$：

\[l( \theta) = f(D| \theta) = \prod_{i=1}^n{f(x_i | \theta)} \]

如果$\hat{\theta}$是使似然函式$ l( \theta)$最大的$ \theta$值，則$\hat{ \theta}$是引數$ \theta$的最大似然估計值，它最終應該是樣本集的某個函式，即$\theta(D)$，

四、求解最大似然函式

最大似然估計的程序就是求解引數$ \theta$為何值時似然函式取得最大值的程序，這個程序用以下公式來表示：

\[\hat{ \theta} = \mathop{\rm{arg}} \ \mathop{\rm{max}}\limits_{\theta} l(\theta) = \mathop{\rm{arg}} \ \mathop{\rm{max}}\limits_{\theta} \prod_{i=1}^n{f(x_i | \theta)} \]

為了便于分析，在實際分析程序中往往構造一種似然函式的對數形式（對數似然函式）：

\[H(\theta) = ln(l(\theta)) \]

這樣一來，求解程序可以轉化為：

\[\hat{ \theta} = \mathop{\rm{arg}} \ \mathop{\rm{max}}\limits_{\theta} H(\theta) = \mathop{\rm{arg}} \ \mathop{\rm{max}}\limits_{\theta} \sum_{i=1}^n{ln(f(x_i | \theta))} \]

以下分兩種情況討論：

第一種： 當似然函式只有一個引數時，我們可以求導對數似然函式，在對數似然函式滿足連續、可微的正則條件下，最大似然估計量是下面微分方程的解：

\[\frac{\mathrm{d} H(\theta)}{\mathrm{d} \theta} = \frac{\mathrm{d} lnl(\theta)}{\mathrm{d} \theta} = 0 \]

第二種： 當似然函式有多個引數時，則$\theta$可以表示為具有$n$個分量的未知向量：

\[\vec{\theta} = (\theta_1, \theta_2, ..., \theta_n)^\top \]

記梯度算子：

\[\nabla_\theta = (\frac{\partial}{\partial \theta_1}, \frac{\partial}{\partial \theta_2}, ..., \frac{\partial}{\partial \theta_n})^\top \]

若似然函式滿足連續可導的條件，則最大似然估計量就是如下方程的解：

\[\nabla_\theta H(\theta) = \sum_{i=1}^n \nabla_\theta ln(f(x_i | \theta)) \]

記住，方程的解只是一個估計值，只有在樣本數趨于無限多的時候，它才會接近于真實值，

五、實體演示

4.1 似然函式連續可導

設樣本服從正太分布$N(\mu,\sigma^2)$，則似然函式為：

\[L(\mu,\sigma^2) = \prod_{i=1}^n \frac{1}{\sqrt{2\pi} \sigma} e^{- \frac{(x_i - \mu)^2}{2 \sigma^2}} = (2 \pi \sigma^2)^{- \frac{n}{2}} e^{-\frac{1}{2\sigma^2} \sum_{i=1}^n (x_i-\mu)^2} \]

其對數形式為：

\[H(\mu,\sigma^2) = -\frac{n}{2}ln(2\pi)-\frac{n}{2}ln(\sigma^2)-\frac{1}{2\sigma^2} \sum_{i=1}^n (x_i-\mu)^2 \]

求其偏導數，得到方程組：

\[\frac{\partial H}{\partial \mu} = \frac{1}{\sigma^2}\sum_{i=1}^n(x_i-\mu) = 0 \]

\[\frac{\partial H}{\partial \sigma^2} = -\frac{n}{2\sigma^2}+\frac{1}{2\sigma^4}\sum_{i=1}^n(x_i-\mu)^2 = 0 \]

最終解得：

\[\hat{\mu} = \bar{x} = \frac{1}{n}\sum_{i=1}^n x_i \]

\[\hat{\sigma^2} = \frac{1}{n}\sum_{i=1}^n(x_i-\bar{x}) \]

不難通過似然函式極其偏導數的單調性可知，此處的似然函式值就是最大值，

4.2 似然函式連續不可導

設樣本服從均勻分布$[a,b]$，則隨機變數X的概率密度函式為：

\[f(x) = \begin{cases} \frac{1}{b-a},&a \leq x \leq b \\ 0,&other \end{cases} \]

對于樣本$D=\{x_1,x_2,...,x_n \}$，其似然函式為：

\[L(a,b)= \begin{cases} \frac{1}{(b-a)^n}, &a \leq x \leq b \\ 0, &other \end{cases} \]

很顯然該似然函式不是連續可導函式，所以必須從似然函式的出發求似然函式的最大值，當$x \in [a,b]$時顯然似然函式大于0，所以最大值一定在$x \in [a,b]$時達到，為了使似然函式函式達到最大值，那么就要使$b-a$盡可能地小，但是又必須滿足$b \leq \mathrm{max} \{x_1,x_2,...,x_n\}$且$a \geq \mathrm{min} \{x_1,x_2,...,x_n\}$，因此$a$和$b$的最大似然估計值為：

\[\hat{a} = \mathrm{min} \{x_1,x_2,...,x_n\} \\ \hat{b} = \mathrm{max} \{x_1,x_2,...,x_n\} \]

總結

現在我們理一下本文的思路，首先我們通過兩個簡單的例子粗淺地解釋了最大似然估計的意義，然后利用最大似然原理推導了最大似然估計的方法，最后我們又求解了正太分布和均勻分布引數的最大似然估計值，

總而言之，最大似然估計具備以下幾個特點：

比其他估計方法更加簡單；
收斂性：無偏或者漸近無偏，當樣本數目增加時，收斂性質會更好；
如果假設的類條件概率模型正確，則通常能獲得較好的結果，但如果假設模型出現偏差，將導致非常差的估計結果，

那么最后的最后，我們總結下最大似然估計的方法流程吧：

預估隨機變數的分布，給出其概率密度函式；
寫出對于樣本的似然函式，判斷似然函式的連續性和可導性；
如果似然函式連續可導，求解似然函式導數為0時時引數的取值，并根據似然函式及其導數的單調性，判斷此處的似然函式值是否是否為最大值；
如果似然函式不是連續可導的，則視情況判斷是否存在最大值，

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/453839.html

標籤：其他

上一篇：同態加密在聯邦計算中的應用

下一篇：紫書第三章習題個人題解

最大似然估計基礎介紹