資訊推斷

這部分屬于資訊論與統計學相結合的部分，類似于機器學習的“隱變數”推斷，即通過觀測到的值來推測真實的資訊，相對于機器學習喜歡提出具體的推斷方法，資訊論更關注推斷的性質是什么，最高的推斷精度到哪里？

假設檢驗

根據觀察，判別真相

在概率學中表述，就是從一堆概率分布中選擇一個與觀測到的隨機變數最相符的

問題描述

\[\begin{aligned} &\mathcal{H}_{0}: \quad X \sim p_{0}(x) \text { ( "null") }\\ &\mathcal{H}_{1}: \quad X \sim p_{1}(x) \quad(\text { "alternative") } \end{aligned} \]
指示變數\(\delta: X \mapsto\{0,1\}\)，根據觀測到的值\(x\)判別是來自于哪個分布
- 確定的
  
  \[\begin{aligned} \delta(x) &=1 \quad \text { if } x \in X_{1} \\ &=0 \quad \text { if } x \in X \backslash X_{1}=X_{1}^{c} \end{aligned} \]
- 隨機的
  
  \[\tilde{\delta}(x)=P(\delta=1 \mid X=x) \]

接下來如何設計判別的標準？根據是否有先驗概率的假設，分為貝葉斯or奈曼皮爾遜假設檢驗

貝葉斯

前提假設

每個假設有先驗分布

\[\begin{aligned} \pi_{0} &=P\left(X \sim p_{0}\right) \\ \pi_{1}=1-\pi_{0} &=P\left(X \sim p_{1}\right) \end{aligned} \]
判斷正誤后都有代價：將真實分布\(\mathcal{H}_{j}\)判斷為\(\mathcal{H}_{i}\)的代價 \(C_{i,j},i,j=0,1\)
貝葉斯風險（確定性判斷）
- 當真實分布為\(\mathcal{H}_{j}\)時的風險
  
  \[R_{j}(\delta)=C_{1, j} p_{j}\left(X_{1}\right)+C_{0, j} p_{j}\left(X_{1}^{c}\right) \]
  其中\(p_{j}\left(X_{1}\right)\)表示此時判斷為1的概率
- 進一步考慮先驗概率后的風險為
  
  \[r(\delta)=\pi_{0} R_{0}(\delta)+\pi_{1} R_{1}(\delta) \label{1} \]
貝葉斯風險（隨機判斷）
- 條件風險
  
  \[R_{j}(\tilde{\delta})=C_{1, j} \sum_{x \in \mathcal{X}} \tilde{\delta}(x) p_{j}(x)+C_{0, j} \sum_{x \in X}[1-\tilde{\delta}(x)] p_{j}(x) \]
- 貝葉斯風險
  
  \[r(\tilde{\delta})=\pi_{0} R_{0}(\tilde{\delta})+\pi_{1} R_{1}(\tilde{\delta}) \label{2} \]

最優解法

確定性判斷

核心目標是通過設計指示變數\(\delta\)來最小化貝葉斯風險

因此先把貝葉斯風險\(\eqref{1}\)展開、化簡

\[\begin{aligned} r(\delta)&= \pi_{0} C_{1,0} p_{0}\left(X_{1}\right)+\pi_{0} C_{0,0} p_{0}\left(X_{1}^{c}\right) \\ & \quad+\pi_{1} C_{1,1} p_{1}\left(X_{1}\right)+\pi_{1} C_{0,1} p_{1}\left(X_{1}^{c}\right) \\ &= \pi_{0} C_{0,0}+\pi_{1} C_{0,1} \\ & \quad+\pi_{0}\left(C_{1,0}-C_{0,0}\right) p_{0}\left(X_{1}\right)+\pi_{1}\left(C_{1,1}-C_{0,1}\right) p_{1}\left(X_{1}\right) \\ &= \text { constant }+\sum_{x \in X_{1}}\left[\pi_{0}\left(C_{1,0}-C_{0,0}\right) p_{0}(x)+\pi_{1}\left(C_{1,1}-C_{0,1}\right) p_{1}(x)\right] \end{aligned} \]

其中\(p_{0}\left(X_{1}^{c}\right)=1-p_{0}\left(X_{1}\right)\)，第二個等號的第一行是常數，第三個等號來源于\(p_{1}\left(X_{1}\right)=\sum_{x \in X_{1}}p_{1}(x)\)

因此，我們要做的就是改變求和范圍\(X_{1}\)，使得右邊求和最小

由于沒法改變到底負多少，因此只用讓求和項里面是負的，就都拿進來，也就是滿足

\[\pi_{0}\left(C_{1,0}-C_{0,0}\right) p_{0}(x)+\pi_{1}\left(C_{1,1}-C_{0,1}\right) p_{1}(x) \leq 0 \quad \text { if } x \in X_{1} \]

不妨假設cost的相對大小，因此得到判決區間（似然比檢驗\(L(x)=\frac{p_{1}(x)}{p_{0}(x)}\)）

\[X_{1}=\left\{x \in X: \frac{p_{1}(x)}{p_{0}(x)} \geq \frac{\pi_{0}}{\pi_{1}} \frac{C_{1,0}-C_{0,0}}{C_{0,1}-C_{1,1}}\right\} \]

當取特殊的cost時，簡化為

\[X_{1}=\left\{x \in X: \frac{p_{1}(x)}{p_{0}(x)} \geq \frac{\pi_{0}}{\pi_{1}}\right\} \]

相當于綜合考慮先驗概率和在這個分布中出現的概率（先驗分布1出現的概率，乘上在這個分布中出現\(x\)的概率，如果這個概率乘積大的話，那么是分布1的可能性就很高）

隨機判斷

按照上述思路，帶入\(\eqref{2}\)的結果，得到貝葉斯風險為

\[\begin{aligned} r(\tilde{\delta})&= \pi_{0} R_{0}(\tilde{\delta})+\pi_{1} R_{1}(\tilde{\delta}) \\ &= \pi_{0} C_{0,0}+\pi_{1} C_{0,1} \\ &+\sum_{x \in X} \tilde{\delta}(x)\left[\pi_{0}\left(C_{1,0}-C_{0,0}\right) p_{0}(x)+\pi_{1}\left(C_{1,1}-C_{0,1}\right) p_{1}(x)\right] \end{aligned} \]

要讓這個值最小化，依然是只要是中括號里是負的，都拿進來，同時\(\tilde{\delta}(x)\)只能取0或者1，也就變成了和確定性判斷一樣的結果，

奈曼皮爾遜

既不考慮先驗概率，也不假設每個判斷帶來的cost，只要將判錯的概率最小化就行了，

具體而言，分別由虛警和漏檢兩種錯誤

\(\mathcal{H}_{0}\) decided as \(\mathcal{H}_{1}\), its probability is denoted as \(P_{\mathrm{F}}(\tilde{\delta})\).
\(\mathcal{H}_{1}\) decided as \(\mathcal{H}_{0}\), its probability is denoted as \(P_{\mathrm{M}}(\tilde{\delta})\); 或者研究檢測效率\(P_{\mathrm{D}}(\tilde{\delta})=1-P_{\mathrm{M}}(\tilde{\delta})\)

由于不可能兩個都很小，因此通常保證一個指標，優化另一個指標，也就是

\[\begin{aligned} & \max _{\tilde{\delta}} P_{\mathrm{D}}(\tilde{\delta}) \\ \text { s.t. } \quad & P_{\mathrm{F}}(\tilde{\delta}) \leq \alpha \end{aligned} \]

虛警概率的約束又叫顯著性水平（也就是說沒有瞎jb報警）（生命科學里取0.05）

上述優化問題可以轉換為指示變數與概率分布的內積形式

\[\begin{aligned} P_{\mathrm{F}}(\tilde{\delta})&=p_{0}(\delta=1)\\ &=\sum_{x \in X} P(\delta=1 \mid X=x) p_{0}(x)\\ &=\sum_{x \in X} \tilde{\delta}(x) p_{0}(x) .\\ P_{\mathrm{D}}(\tilde{\delta})&=p_{1}(\delta=1)\\ &=\sum_{x \in X} P(\delta=1 \mid X=x) p_{1}(x)\\ &=\sum_{x \in X} \tilde{\delta}(x) p_{1}(x) . \end{aligned} \]

最優解

Neyman-Pearson Lemma

在奈曼皮爾遜檢驗的準則下，最優判決的形式為

\[\begin{aligned} \tilde{\delta}(x) &=1 \text { if } L(x)>\eta \\ &=0 \text { if } L(x)<\eta \\ &=\gamma(x) \text { if } L(x)=\eta \end{aligned}\label{3} \]

其中\(\eta \geq 0\)需要滿足\(P_{\mathrm{F}}(\tilde{\delta})=\alpha\)，\(\gamma(x) \in[0,1]\)可以設定為一個常數

證明：

證明思路：最優的含義：如果有其他的判決方法\(\tilde{\delta}^{\prime}\)也滿足虛警要求，那它的檢測效率不能再提高，也就是要滿足\(P_{\mathrm{D}}(\tilde{\delta}) \geq P_{\mathrm{D}}\left(\tilde{\delta}^{\prime}\right)\)

做差有

\[\begin{aligned} P_{\mathrm{D}}(\tilde{\delta})-P_{\mathrm{D}}\left(\tilde{\delta}^{\prime}\right) &=\sum_{x \in \mathcal{X}} \tilde{\delta}(x) p_{1}(x)-\sum_{x \in \mathcal{X}} \tilde{\delta}^{\prime}(x) p_{1}(x) \\ &=\sum_{x \in \mathcal{X}}\left[\tilde{\delta}(x)-\tilde{\delta}^{\prime}(x)\right] p_{1}(x) . \end{aligned}\label{4} \]

對于\(\eqref{3}\)而言，有

當 \(p_{1}(x)>\eta p_{0}(x), \tilde{\delta}(x)=1, \Rightarrow \tilde{\delta}(x)-\tilde{\delta}^{\prime}(x) \geq 0\);

當\(p_{1}(x)<\eta p_{0}(x), \tilde{\delta}(x)=0, \Rightarrow \tilde{\delta}(x)-\tilde{\delta}^{\prime}(x) \leq 0\)

整理后就得到不等式

\[\left[p_{1}(x)-\eta p_{0}(x)\right]\left[\tilde{\delta}(x)-\tilde{\delta}^{\prime}(x)\right] \geq 0, \quad \forall x \in X \]

替換\(\eqref{4}\)中的式子，得到

\[\begin{aligned} P_{\mathrm{D}}(\tilde{\delta})-P_{\mathrm{D}}\left(\tilde{\delta}^{\prime}\right) & \geq \eta \sum_{x \in X}\left[\tilde{\delta}(x)-\tilde{\delta}^{\prime}(x)\right] p_{0}(x) \\ &=\eta[\underbrace{P_{\mathrm{F}}(\tilde{\delta})}_{=\alpha}-\underbrace{P_{\mathrm{F}}\left(\tilde{\delta}^{\prime}\right)}_{\leq \alpha}] \geq 0 \end{aligned} \]

因此這個形式是最優的，

對于any other最優的解釋，這里的any other一定還是有一些性質被限制住的，比如這里一個是\(\tilde{\delta}(x)\in [0,1]\)，另一個是虛警概率\(P_{\mathrm{F}}\left(\tilde{\delta}^{\prime}\right)\le\alpha\)

意義

還是一個巧妙的構造性證明，
不管是貝葉斯還是奈曼皮爾遜，核心都是似然比

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/457595.html

標籤：其他

上一篇：LeetCode 84.柱狀圖中最大的矩形 | 單調堆疊的使用 | 解題思路及演算法 Java

下一篇：論文閱讀：《Deep Compositional Question Answering with Neural Module Networks》

【課程筆記】中科大資訊論（六）