一、兩個簡單的栗子
第一顆栗子
有兩個外形完全相同且不透明的黑箱子,甲箱子里裝有99個白球和1個黑球,乙箱子里裝有1個白球和99個黑球,一次試驗里隨機選中一個箱子,然后從中取出一個球發現是黑球,請問,這個箱子最有可能是哪個箱子?
很顯然,人們最直觀的感覺是這個黑球最有可能是從甲箱子里取出來的,因為甲箱子里的黑球多呀,這個推斷符合人們的日常經驗,這里的最有可能就是“最大似然(maximum-likelihood)”的意思,而這個問題答案背后的原理就是“最大似然原理”,
第二顆栗子
我們來看下用于決策的經典公式之一貝葉斯公式:
\[p( w | x ) = \frac{p( x | w ) \cdot p( w ) }{ p( x ) } \]在機器學習當中,其中\(p(w)\)稱為先驗概率,\(p(x|w)\)稱為類條件概率,\(p(w|x)\)稱為后驗概率,后驗概率表示的某事發生了那該事件屬于某一類的概率,這個概率越大我們越有理由把該事件劃分到這一類中,
以上的表述比較抽象,我們用一個相對實際的例子說明下,夏天到了,我們想調查一下附近一個廣場上穿涼鞋遛彎的情況,已知這個廣場上男女比例大約在2:1,然后男生穿涼鞋出門的概率大約在1/2,而女生穿涼鞋出門的概率大約在2/3,我們看見前方有一個人腳上光溜溜的似乎是一雙涼鞋,那么這個人是男生的概率是多少?是女生的概率是多少?
記廣場上出現男生的概率\(p(w_1)=2/3\),出現女生的概率\(p(w_1)=1/3\),記男生穿涼鞋的概率為\(p(x|w_1)=1/2\),女生穿穿涼鞋的概率為\(p(x|w_2)=2/3\),這就是先驗概率,現在需要求解的概率實際上是后驗概率\(p(w_1|x)\)和\(p(w_2|x)\),
我們首先計算廣場上有人穿涼鞋的概率:
\[p(x) =p(x|w_1)p(w_1) + p(x|w_2)p(w_2) = \frac{5}{9} \]根據貝葉斯公式可得:
\[p(w_1|x) = \frac{p(x|w_1) \cdot p(w_1)}{p(x)} = \frac{3}{5} \\ p(w_2|x) = \frac{p(x|w_2) \cdot p(w_2)}{p(x)} = \frac{2}{5} \]二、問題引出
以上的舉例都比較簡單,在實際問題并不都是這么幸運的,往往先驗概率和條件概率都是未知的,根據僅有的樣本資料進行分類時,一種可行的辦法是我們需要先對先驗概率和條件概率進行估計,然后再套用貝葉斯公式,像穿不穿涼鞋、是男是女這類離散有限隨機變數的分布似憾訓能通過統計來估計,如果是連續型隨機變數,我們就要對它的概率密度進行估計,然而困難還不止于此,像卷積神經網路等機器學習演算法中隨機變數幾乎都是多維的,也有可能出現樣本數量有限的問題,
問題似乎有點棘手,但解決辦法總會有的,既然估計隨機變數的分布在某些情況下較難,我們不妨先假設隨機變數服從某種分布,然后對分布引數進行估計,最后通過樣本校驗估計出的分布是否合適,在這種思路下,最大似然估計就是其中一種可行的方法,總結起來,最大似然估計的目的就是:利用已知的樣本結果,反推最有可能(最大概率)導致這樣結果的引數值,
三、最大似然估計的原理
最大似然估計是建立在最大似然原理的基礎上的一個統計方法,是概率論在統計學中的應用,最大似然估計提供了一種給定觀察資料來評估模型引數的方法,即:“模型已定,引數未知”,通過若干次試驗,觀察其結果,利用試驗結果得到某個引數值能夠使樣本出現的概率為最大,則稱為最大似然估計,
對于隨機變數\(X\),我們想要對它的分布進行估計,為此我們對X進行了n次觀察獲取了樣本集\(D = \{x_1, x_2, ..., x_n \}\),其中每個樣本都是獨立同分布的,我們假設X服從引數為$ \theta$的某種分布并給出似然函式的定義:
定義1 (似然函式,likelihood function) 聯合概率密度函式\(f(D| \theta)\)稱為相對于樣本集\(D = \{x_1, x_2, ..., x_n \}\)的$ \theta\(的似然函式,記為\)l( \theta)$:
\[l( \theta) = f(D| \theta) = \prod_{i=1}^n{f(x_i | \theta)} \]如果\(\hat{\theta}\)是使似然函式$ l( \theta)\(最大的\) \theta\(值,則\)\hat{ \theta}\(是引數\) \theta\(的最大似然估計值,它最終應該是樣本集的某個函式,即\)\theta(D)$,
四、求解最大似然函式
最大似然估計的程序就是求解引數$ \theta$為何值時似然函式取得最大值的程序,這個程序用以下公式來表示:
\[\hat{ \theta} = \mathop{\rm{arg}} \ \mathop{\rm{max}}\limits_{\theta} l(\theta) = \mathop{\rm{arg}} \ \mathop{\rm{max}}\limits_{\theta} \prod_{i=1}^n{f(x_i | \theta)} \]為了便于分析,在實際分析程序中往往構造一種似然函式的對數形式(對數似然函式):
\[H(\theta) = ln(l(\theta)) \]這樣一來,求解程序可以轉化為:
\[\hat{ \theta} = \mathop{\rm{arg}} \ \mathop{\rm{max}}\limits_{\theta} H(\theta) = \mathop{\rm{arg}} \ \mathop{\rm{max}}\limits_{\theta} \sum_{i=1}^n{ln(f(x_i | \theta))} \]以下分兩種情況討論:
第一種: 當似然函式只有一個引數時,我們可以求導對數似然函式,在對數似然函式滿足連續、可微的正則條件下,最大似然估計量是下面微分方程的解:
\[\frac{\mathrm{d} H(\theta)}{\mathrm{d} \theta} = \frac{\mathrm{d} lnl(\theta)}{\mathrm{d} \theta} = 0 \]第二種: 當似然函式有多個引數時,則\(\theta\)可以表示為具有\(n\)個分量的未知向量:
\[\vec{\theta} = (\theta_1, \theta_2, ..., \theta_n)^\top \]記梯度算子:
\[\nabla_\theta = (\frac{\partial}{\partial \theta_1}, \frac{\partial}{\partial \theta_2}, ..., \frac{\partial}{\partial \theta_n})^\top \]若似然函式滿足連續可導的條件,則最大似然估計量就是如下方程的解:
\[\nabla_\theta H(\theta) = \sum_{i=1}^n \nabla_\theta ln(f(x_i | \theta)) \]記住, 方程的解只是一個估計值,只有在樣本數趨于無限多的時候,它才會接近于真實值,
五、實體演示
4.1 似然函式連續可導
設樣本服從正太分布\(N(\mu,\sigma^2)\),則似然函式為:
\[L(\mu,\sigma^2) = \prod_{i=1}^n \frac{1}{\sqrt{2\pi} \sigma} e^{- \frac{(x_i - \mu)^2}{2 \sigma^2}} = (2 \pi \sigma^2)^{- \frac{n}{2}} e^{-\frac{1}{2\sigma^2} \sum_{i=1}^n (x_i-\mu)^2} \]其對數形式為:
\[H(\mu,\sigma^2) = -\frac{n}{2}ln(2\pi)-\frac{n}{2}ln(\sigma^2)-\frac{1}{2\sigma^2} \sum_{i=1}^n (x_i-\mu)^2 \]求其偏導數,得到方程組:
\[\frac{\partial H}{\partial \mu} = \frac{1}{\sigma^2}\sum_{i=1}^n(x_i-\mu) = 0 \]\[\frac{\partial H}{\partial \sigma^2} = -\frac{n}{2\sigma^2}+\frac{1}{2\sigma^4}\sum_{i=1}^n(x_i-\mu)^2 = 0 \]最終解得:
\[\hat{\mu} = \bar{x} = \frac{1}{n}\sum_{i=1}^n x_i \]\[\hat{\sigma^2} = \frac{1}{n}\sum_{i=1}^n(x_i-\bar{x}) \]不難通過似然函式極其偏導數的單調性可知,此處的似然函式值就是最大值,
4.2 似然函式連續不可導
設樣本服從均勻分布\([a,b]\),則隨機變數X的概率密度函式為:
\[f(x) = \begin{cases} \frac{1}{b-a},&a \leq x \leq b \\ 0,&other \end{cases} \]對于樣本\(D=\{x_1,x_2,...,x_n \}\),其似然函式為:
\[L(a,b)= \begin{cases} \frac{1}{(b-a)^n}, &a \leq x \leq b \\ 0, &other \end{cases} \]很顯然該似然函式不是連續可導函式,所以必須從似然函式的出發求似然函式的最大值,當\(x \in [a,b]\)時顯然似然函式大于0,所以最大值一定在\(x \in [a,b]\)時達到,為了使似然函式函式達到最大值,那么就要使\(b-a\)盡可能地小,但是又必須滿足\(b \leq \mathrm{max} \{x_1,x_2,...,x_n\}\)且\(a \geq \mathrm{min} \{x_1,x_2,...,x_n\}\),因此\(a\)和\(b\)的最大似然估計值為:
\[\hat{a} = \mathrm{min} \{x_1,x_2,...,x_n\} \\ \hat{b} = \mathrm{max} \{x_1,x_2,...,x_n\} \]總結
現在我們理一下本文的思路,首先我們通過兩個簡單的例子粗淺地解釋了最大似然估計的意義,然后利用最大似然原理推導了最大似然估計的方法,最后我們又求解了正太分布和均勻分布引數的最大似然估計值,
總而言之,最大似然估計具備以下幾個特點:
- 比其他估計方法更加簡單;
- 收斂性:無偏或者漸近無偏,當樣本數目增加時,收斂性質會更好;
- 如果假設的類條件概率模型正確,則通常能獲得較好的結果,但如果假設模型出現偏差,將導致非常差的估計結果,
那么最后的最后,我們總結下最大似然估計的方法流程吧:
- 預估隨機變數的分布,給出其概率密度函式;
- 寫出對于樣本的似然函式,判斷似然函式的連續性和可導性;
- 如果似然函式連續可導,求解似然函式導數為0時時引數的取值,并根據似然函式及其導數的單調性,判斷此處的似然函式值是否是否為最大值;
- 如果似然函式不是連續可導的,則視情況判斷是否存在最大值,
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/453839.html
標籤:其他
上一篇:同態加密在聯邦計算中的應用
下一篇:紫書第三章習題 個人題解
