最大熵模型怎么理解?熵是什么??
最大熵模型的理解!以及熵的理解!
- 前言
- 一、熵是什么?
- 二、最大熵原理是什么
- 三、最大熵模型的定義
前言
最大熵模型在機器學習里面很重要,很重要,很重要(重要的事情說三遍)!但是也比較難理解,很多人連熵代表混亂度都沒法理解,所以寫這篇文章,希望可以幫助你們理解!
一、熵是什么?
首先我們來看一個簡單的列子:

u1,u2,u3…為輸入,v1,v2,v3…為輸出,p1,p2,p3…代表u1,u2,u3…發生的概率,
易知:

這里的 I(ui)代表的是資訊發生前的不確定性,很容易理解,如果 ui發生的概率越大,那么其他輸入信號發生的概率越小,那么這里信號的混亂度就越小,
我們都知道期望可以代表的是一堆事件里面的平均值,那么所有的信號的混亂程度就可以通過期望表現出來,log(1/pi)就是對應的自資訊,可以理解為這個輸入資訊對應的不確定性,乘以對應的概率,求和就是期望,(忘了期望的定義,可以去復習哈)

這個就是資訊熵的公式,也叫先驗不確定性,
所以說,熵就是代表的不確定性,
二、最大熵原理是什么
最大熵指的就是混亂度最大,資訊的純度最低,我們容易知道當資訊滿足均勻分布的時候,熵最大,
當一個模型在沒有更多的資訊的情況下,那些不確定的部分都是等可能(比如說,你在任何情況都不知道的情況下,你同學問你明天下雨么?你肯定會回答,下雨,不下雨各占一半),
然而這個等可能在模型里面卻不好操作,而熵就是一個可優化的數值指標,可以讓模型找到熵最大的模型(這里一般指的是約束條件最優化),
看一個簡單的列子:
假設隨機變數X有5個取值{A,B,C,D,E},要估計取 各個值的概率P(A),P(B),P(C),P(D),P(E):
約束條件為:

如果沒有任何其他資訊, 仍要對概率分布進行估計,一個辦法就是認為這個分布中取各個值的 概率是相等的,既:

此時,在這里熵是最大的(帶進公式算可以得到),你想一下,如果你去買彩票,賣彩票的告訴你,以下幾種彩票中獎的可能性都相同,你是不是覺得很難選? 這時混亂度最大,如果賣彩票的人告訴你,A彩票中獎的概率比其他的大點,你是不是就知道怎么了選擇了?
三、最大熵模型的定義
最大熵模型的統計學原理為最大熵原理,即根據不完整的資訊推斷隨機事件的概率分布時,應計算滿足分布限制條件的具有最大熵的概率分布,熵最大的分布最接近真實狀態,(這里這么理解,就是在已知的約束條件,其他情況未知,這是最接近真實的情況就是等可能的時候,也就是熵最大的時候,)
以下是最大熵模型的計算公式(這里要記得最大熵模型相當于是求最優的約束引數),

式中:H ( P)為條件熵, P(y∣x)為條件概率分布假設,P( x) 為經驗分布, E p (fi) 表示特征函式關于經驗分布的期望.求解程序中使用拉格朗日乘數法,并將帶約束的最優化之原始問題轉換為無約束的最優化之對偶問題進行求解.這里怎么求解可以去看看李航的樹上對應的部分,有很詳細的解答程序,
在這里主要談談對于最大熵模型的理解!
首先來看看最大熵的求解函式:

其實這里有點像:
p(y) = p(x)*p(y/x)
所以這里可以理解相當于在求輸出熵最大,滿足分布限制條件的具有最大熵的概率分布,熵最大的分布最接近真實狀態,(這里這么理解,就是在已知的約束條件,其他情況未知,這是最接近真實的情況就是等可能的時候,也就是熵最大的時候,)
其他的解釋李航書上都有詳細解釋,
更加詳細也可以看看這個
https://wenku.baidu.com/view/8596834b7375a417876f8f03.html
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/206468.html
標籤:其他
