Jensen不等式-有解無憂

引言

?概率不等式是概率論和數理統計的理論研究中的重要工具，對于概率極限理論和統計大樣本理論，幾乎所有重要結果的論證是借助于概率不等式的巧妙應用， J e n s e n \mathrm{Jensen} Jensen不等式和證明，并應用其帶來解決一些相關問題，

J e n s e n \mathrm{Jensen} Jensen不等式不同形式

? J e n s e n \mathrm{Jensen} Jensen不等式的形式有很多種，標準形式的如下：

J e n s e n \mathrm{Jensen} Jensen不等式：如果 f ( x ) f(x) f(x)為連續實值凸函式，且 x 1 ≤ x 2 ≤ ? ≤ x n x_1\le x_2\le \cdots \le x_n x1?≤x2?≤?≤xn?， ∑ i = 1 n λ i = 1 \sum\limits_{i=1}^n\lambda_i=1 i=1∑n?λi?=1， λ i ≥ 0 \lambda_i \ge0 λi?≥0， i = 1 , 2 ? ? , n i=1,2\cdots,n i=1,2?,n，則有 ∑ i = 1 n λ i f ( x i ) ≥ f ( ∑ i = 1 n λ i x i ) \sum\limits_{i=1}^n\lambda_i f(x_i)\ge f(\sum\limits_{i=1}^n\lambda_i x_i) i=1∑n?λi?f(xi?)≥f(i=1∑n?λi?xi?)如果 f ( x ) f(x) f(x)為連續實值凹函式，則有 ∑ i = 1 n λ i f ( x i ) ≤ f ( ∑ i = 1 n λ i x i ) \sum\limits_{i=1}^n\lambda_i f(x_i)\le f(\sum\limits_{i=1}^n\lambda_i x_i) i=1∑n?λi?f(xi?)≤f(i=1∑n?λi?xi?)

?在概率論中 J e n s e n \mathrm{Jensen} Jensen不等式有：離散型，連續型，條件期望型和中位數型等形式

J e n s e n \mathrm{Jensen} Jensen不等式1：設 f ( x ) f(x) f(x)是區間 [ a , b ] [a,b] [a,b]上的凸函式， X X X是取值于 [ a , b ] [a,b] [a,b]上子集 A A A的離散型隨機變數，則有如下兩個結論成立
（1） E ( f ( X ) ) ≥ f ( E ( X ) ) \mathbb{E}(f(X))\ge f(\mathbb{E}(X)) E(f(X))≥f(E(X));
（2）如果 f ( X ) f(X) f(X)是嚴格凸的，則不等式中等號當且僅當 P ( X = E ( X ) ) = 1 P(X=\mathbb{E}(X))=1 P(X=E(X))=1時成立，

證明：
（1）對 X X X取值的個數進行數學歸納法證明，首先對于兩點分布： X ～ { p ( x 1 ) , p ( x 2 ) } X \sim \{p(x_1),p(x_2)\} X～{p(x1?),p(x2?)}簡記 p 1 = p ( x 1 ) p_1=p(x_1) p1?=p(x1?)， p 2 = p ( x 2 ) p_2=p(x_2) p2?=p(x2?)，注意到 p 1 = 1 ? p 2 p_1=1-p_2 p1?=1?p2?，則有 E ( f ( X ) ) = p 1 f ( x 1 ) + p 2 f ( x 2 ) ≥ f ( p 1 x 1 + p 2 x 2 ) = f ( E ( X ) ) \mathbb{E}(f(X))=p_1f(x_1)+p_2f(x_2)\ge f(p_1x_1+p_2x_2)=f(\mathbb{E}(X)) E(f(X))=p1?f(x1?)+p2?f(x2?)≥f(p1?x1?+p2?x2?)=f(E(X))假設 X X X的值域 A A A中元素個數為 n ? 1 ( n ≥ 2 ) n-1(n \ge 2) n?1(n≥2)， A = { x 1 , x 2 , ? ? , x n ? 1 } A=\{x_1,x_2,\cdots,x_{n-1}\} A={x1?,x2?,?,xn?1?}時，結論（1）式成立，則對 A A A中元素個數為 n ( n ≥ 2 ) n(n\ge 2) n(n≥2)， A = ( x 1 , x 2 , ? ? , x n ) A=(x_1,x_2,\cdots,x_n) A=(x1?,x2?,?,xn?)時，簡記 p i = p ( x i ) p_i=p(x_i) pi?=p(xi?)， p i ′ = p i 1 ? p n , i = 1 , 2 , ? ? , n p_i^{\prime}=\frac{p_i}{1-p_n},i=1,2,\cdots,n pi′?=1?pn?pi??,i=1,2,?,n，則有 { p 1 ′ , p 2 ′ , ? ? , p n ? 1 ′ } \{p_1^{\prime},p_2^{\prime},\cdots,p^{\prime}_{n-1}\} {p1′?,p2′?,?,pn?1′?}是一個概率分布，從而有 E ( f ( X ) ) = p 1 f ( x 1 ) + p 2 f ( x 2 ) + ? + p n f ( x n ) = ( 1 ? p n ) ∑ i = 1 n ? 1 p i ′ f ( x i ) + p n f ( x n ) ≥ ( 1 ? p n ) f ( ∑ i = 1 n ? 1 p i ′ x i ) + p n f ( x n ) ≥ f ( ∑ i = 1 n p i x i ) = f ( E ( X ) ) \begin{aligned}\mathbb{E}(f(X))&=p_1f(x_1)+p_2f(x_2)+\cdots+p_nf(x_n)\\&=(1-p_n)\sum\limits_{i=1}^{n-1}p^{\prime}_i f(x_i)+p_n f(x_n)\\&\ge(1-p_n)f(\sum\limits_{i=1}^{n-1}p_i^{\prime}x_i)+p_nf(x_n)\\&\ge f(\sum\limits_{i=1}^np_ix_i)=f(\mathbb{E}(X))\end{aligned} E(f(X))?=p1?f(x1?)+p2?f(x2?)+?+pn?f(xn?)=(1?pn?)i=1∑n?1?pi′?f(xi?)+pn?f(xn?)≥(1?pn?)f(i=1∑n?1?pi′?xi?)+pn?f(xn?)≥f(i=1∑n?pi?xi?)=f(E(X))?
（2）若 f ( x ) f(x) f(x)是嚴格凸的，則總有 E ( f ( x ) ) ≥ f ( E ( X ) ) \mathbb{E}(f(x))\ge f(\mathbb{E}(X)) E(f(x))≥f(E(X))成立，除非當且僅當 P ( X = E ( X ) ) = 1 P(X=\mathbb{E}(X))=1 P(X=E(X))=1時， E ( f ( X ) ) = f ( E ( X ) ) \mathbb{E}(f(X))=f(\mathbb{E}(X)) E(f(X))=f(E(X))成立，

J e n s e n \mathrm{Jensen} Jensen不等式2：設 X X X是 m m m維隨機向量， f ( x ) f(x) f(x)為定義在 R m \mathbb{R}^{m} Rm上的凸函式 ( m = 1 , 2 , ? ? ) (m=1,2,\cdots) (m=1,2,?)，其中 E ( X ) < ∞ \mathbb{E}(X)<\infty E(X)<∞，則有
（1） E ( f ( X ) ) ≥ f ( E ( X ) ) \mathbb{E}(f(X))\ge f(\mathbb{E}(X)) E(f(X))≥f(E(X));
（2）如果 f ( X ) f(X) f(X)是嚴格凸的，則不等式中等號當且僅當 P ( X = E ( X ) ) = 1 P(X=\mathbb{E}(X))=1 P(X=E(X))=1時成立，

證明：
（1）由于 y = f ( x ) y=f(x) y=f(x)是 R m + 1 \mathbb{R}^{m+1} Rm+1中的一個凸曲面，而點 ( E ( X ) , f ( E ( X ) ) ) (\mathbb{E}(X),f(\mathbb{E}(X))) (E(X),f(E(X)))在次曲面上，存在一個過此點的平面，使得上述曲面全在此平面上的上方，若以 y = f ( E ( X ) ) + c ′ ( x ? E ( X ) ) y=f(\mathbb{E}(X))+c^{\prime}(x-\mathbb{E}(X)) y=f(E(X))+c′(x?E(X))記此平面的方程，則有 f ( x ) ≥ f ( E ( X ) ) + c ′ ( x ? E ( X ) ) f(x)\ge f(\mathbb{E}(X))+c^{\prime}(x-\mathbb{E}(X)) f(x)≥f(E(X))+c′(x?E(X))因而則有 E ( f ( X ) ) ≥ f ( E ( X ) ) + c ′ E ( X ? E ( X ) ) = f ( E ( X ) ) \mathbb{E}(f(X))\ge f(\mathbb{E}(X))+c^{\prime}\mathbb{E}(X-\mathbb{E}(X))=f(\mathbb{E}(X )) E(f(X))≥f(E(X))+c′E(X?E(X))=f(E(X))
（2）若 f ( x ) f(x) f(x)是嚴格凸的，則除非 x = E ( X ) x=\mathbb{E}(X) x=E(X)，總有 f ( x ) > f ( E ( X ) ) f(x)>f(\mathbb{E}(X)) f(x)>f(E(X))，總有 f ( x ) > f ( E ( X ) ) + c ′ ( x ? E ( X ) ) f(x)>f(\mathbb{E}(X))+c^{\prime}(x-\mathbb{E}(X)) f(x)>f(E(X))+c′(x?E(X))成立，因而當且僅當 P ( X = E ( X ) ) = 1 P(X=\mathbb{E}(X))=1 P(X=E(X))=1時 E ( f ( X ) ) = f ( E ( X ) ) \mathbb{E}(f(X))=f(\mathbb{E}(X)) E(f(X))=f(E(X))成立，

J e n s e n \mathrm{Jensen} Jensen不等式3：設 f ( x ) f(x) f(x)是連續凸函式， X X X為關于 g g g為 σ \sigma σ可積的隨機變數，則 f ( X ) f(X) f(X)關于 g g g的條件期望存在，且有 f ( E [ X ∣ g ] ) ≥ E ( f ( X ) ∣ g ) f(\mathbb{E}[X|g])\ge \mathbb{E}(f(X)|g) f(E[X∣g])≥E(f(X)∣g)幾乎必然成立，

證明： 令 f ′ ( x ) f^{\prime}(x) f′(x)為 f ( x ) f(x) f(x)的右導數，則對任意實數 x x x與 y y y有 f ′ ( x ) ( y ? x ) ≥ f ( y ) ? f ( x ) f^{\prime}(x)(y-x)\ge f(y)-f(x) f′(x)(y?x)≥f(y)?f(x)以 E [ X ∣ g ] \mathbb{E}[X|g] E[X∣g]及 X X X代替上式中的 x x x與 y y y得到 f ′ ( E [ X ∣ g ] ) ( X ? E [ X ∣ g ] ) + f ( E [ X ∣ g ] ) ≤ f ( X ) f^{\prime}(\mathbb{E}[X|g])(X-\mathbb{E}[X|g])+f(\mathbb{E}[X|g])\le f(X) f′(E[X∣g])(X?E[X∣g])+f(E[X∣g])≤f(X)記上式左邊的隨機變數為 Y Y Y，則 Y Y Y關于 g g g的條件期望存在，且 E [ Y ∣ g ] = f ( E [ X ∣ g ] ) \mathbb{E}[Y|g]=f(\mathbb{E}[X|g]) E[Y∣g]=f(E[X∣g])將不等式兩邊同時取條件期望則有 f ( E [ X ∣ g ] ) ≤ E [ f ( X ) ∣ g ] f(\mathbb{E}[X|g])\le \mathbb{E}[f(X)|g] f(E[X∣g])≤E[f(X)∣g]幾乎必然成立，

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/423420.html

標籤：AI

上一篇：CUDA-Z工具分析Nvidia顯卡算力資訊

下一篇：OpenCV 第七章模板匹配和影像分割