許多簡單的概率分布在機器學習的眾多領域中都非常有用,本節將介紹伯努利分布、二項式分布、多項式分布及范疇分布,
伯努利(Bernoulli)分布
伯努利分布是一種離散分布,有兩種可能的結果:
- 1表示成功,出現的概率為 p p p(其中 0 < p < 1 0 \lt p \lt 1 0<p<1),
- 0表示失敗,出現的概率為 q = 1 ? p q=1-p q=1?p,
這種分布在機器學習中很有用,比如正面或反面,成功或失敗,有缺陷或沒有缺陷,病人康復或未康復,
可以用數學描述為:隨機變數
x
x
x只取0和1兩個值,其概率為:
- P ( x = 1 ) = p P(x = 1) = p P(x=1)=p, P ( x = 0 ) = 1 ? p = q P(x = 0) = 1 - p = q P(x=0)=1?p=q
數學期望和方差計算如下:
- E ( x ) = 1 ? p + 0 ? q = p E(x) = 1 * p + 0 * q = p E(x)=1?p+0?q=p
- E ( x 2 ) = 1 2 ? p + 0 2 ? q = p E(x^2) = 1^2 * p + 0^2 * q = p E(x2)=12?p+02?q=p
- D ( x ) = E ( x 2 ) ? [ E ( x ) ] 2 = p ? p 2 = p ( 1 ? p ) = p q D(x) = E(x^2) - [E(x)]^2 = p - p^2 = p(1-p) = pq D(x)=E(x2)?[E(x)]2=p?p2=p(1?p)=pq
二項式(Binomial)分布
在
n
n
n次獨立重復的伯努利試驗中,設每次試驗成功的概率為
p
p
p,用
x
x
x表示
n
n
n重伯努利試驗中成功的次數,則
x
x
x取值為
{
0
,
1
,
…
,
n
}
\{0, 1, \dots, n\}
{0,1,…,n}中的一個,
對每一個
k
(
0
≤
k
≤
n
)
k(0 \le k \le n)
k(0≤k≤n),事件
{
x
=
k
}
\{x=k\}
{x=k}表示“
n
n
n次試驗成功恰好發生
k
k
k次”,隨機變數
x
x
x的離散概率分布即為二項分布(Binomial Distribution),
典型例子為:扔硬幣,硬幣正面朝上概率為
p
p
p, 重復扔
n
n
n次硬幣,
k
k
k次為正面的概率即為一個二項分布概率,
用概率表示如下:
- P ( x = k ) = n ! k ! ( n ? k ) ! p k ( 1 ? p ) n ? k P(x = k) = \frac{n!}{k!(n-k)!}p^k(1-p)^{n-k} P(x=k)=k!(n?k)!n!?pk(1?p)n?k
下圖為不同引數下的二項式分布的圖形:

多項式(Multinomial)分布
多項式分布是二項式分布的推廣,將二項式分布推廣至多種狀態,就得到了多項式分布,舉例說明如下:
- 二項式分布:扔硬幣,硬幣正面朝上概率為 p p p, 重復扔 n n n次硬幣, k k k次為正面的概率,
- 多項式分布:扔骰子,不同于扔硬幣,骰子有6個面對應6個不同的點數,這樣單次每個點數朝上的概率都是 1 6 \frac{1}{6} 61?(對應 p 1 p_1 p1?~ p 6 p_6 p6?,它們的值不一定都是 1 6 \frac{1}{6} 61?,只要和為1且互斥即可,比如一個形狀不規則的骰子),重復扔 n n n次,如果問有 k k k次都是點數6朝上的概率,
更一般化的描述如下:投擲
n
n
n次骰子,這個骰子共有6種結果輸出,1點出現概率為
p
1
p_1
p1?,2點出現概率
p
2
p_2
p2?,
…
\dots
…;多項式分布給出了在
n
n
n次試驗中,骰子1點出現
k
1
k_1
k1?次,2點出現
k
2
k_2
k2?次,3點出現
k
3
k_3
k3?次,…,6點出現
k
6
k_6
k6?次,這個結果組合的概率為:
f
(
k
1
,
k
2
,
…
,
k
6
;
n
,
p
1
,
p
2
,
…
,
p
6
)
f(k_1, k_2, \dots, k_6;n, p_1, p_2, \dots, p_6)
f(k1?,k2?,…,k6?;n,p1?,p2?,…,p6?)
=
P
(
x
1
=
k
1
,
x
2
=
k
2
,
…
,
x
6
=
k
6
)
= P(x_1= k_1, x_2= k_2, \dots, x_6= k_6)
=P(x1?=k1?,x2?=k2?,…,x6?=k6?)
=
n
!
k
1
!
k
2
!
…
k
6
!
p
1
k
1
p
2
k
2
…
p
6
k
6
= \frac{n!}{k_1!k_2! \dots k_6!}p_1^{k_1}p_2^{k_2} \dots p_6^{k_6}
=k1?!k2?!…k6?!n!?p1k1??p2k2??…p6k6??,
約束條件為
∑
i
=
1
6
k
i
=
n
\sum_{i=1}^{6} k_i = n
∑i=16?ki?=n.
為了更加簡化,用
Γ
\Gamma
Γ函式來表示:
f
(
k
1
,
k
2
,
…
,
k
6
;
n
,
p
1
,
p
2
,
…
,
p
6
)
f(k_1, k_2, \dots, k_6;n, p_1, p_2, \dots, p_6)
f(k1?,k2?,…,k6?;n,p1?,p2?,…,p6?)
=
Γ
(
∑
i
=
1
6
k
i
+
1
)
∏
i
=
1
6
Γ
(
k
i
+
1
)
∏
i
=
1
6
p
i
k
i
=\frac{\Gamma(\sum_{i=1}^{6}k_i + 1)}{\prod_{i = 1}^{6}\Gamma(k_i + 1)}\prod_{i = 1}^{6}p_i^{k_i}
=∏i=16?Γ(ki?+1)Γ(∑i=16?ki?+1)?∏i=16?piki??.
【例題-1】同時投擲5枚骰子,投擲出2個一點,2個二點,1個三點的概率是多大?
【解答】
x
1
x_1
x1?~
x
6
x_6
x6?表示6個點的出現次數之和為
n
=
5
n = 5
n=5,利用多項式分布組合概率公式有:
P
(
x
1
=
2
,
x
2
=
2
,
x
3
=
1
,
x
4
=
0
,
x
5
=
0
,
x
6
=
0
)
P(x_1= 2, x_2= 2, x_3 = 1, x_4 = 0, x_5 = 0, x_6= 0)
P(x1?=2,x2?=2,x3?=1,x4?=0,x5?=0,x6?=0)
=
5
!
2
!
2
!
1
!
0
!
0
!
0
!
(
1
6
)
2
(
1
6
)
2
(
1
6
)
1
(
1
6
)
0
(
1
6
)
0
(
1
6
)
0
=\frac{5!}{2!2!1!0!0!0!}(\frac{1}{6})^{2}(\frac{1}{6})^{2}(\frac{1}{6})^{1}(\frac{1}{6})^{0}(\frac{1}{6})^{0}(\frac{1}{6})^{0}
=2!2!1!0!0!0!5!?(61?)2(61?)2(61?)1(61?)0(61?)0(61?)0
=
5
1296
=\frac{5}{1296}
=12965?
【例題-2】同時投擲5枚骰子,出現兩對點數一樣的概率是多少?
【解答】
在【例題-1】的基礎之上,需要考慮
x
1
x_1
x1?~
x
6
x_6
x6?,其中2個取2,1個取1有多少種?
| x 1 x_1 x1? | x 2 x_2 x2? | x 3 x_3 x3? | x 4 x_4 x4? | x 5 x_5 x5? | x 6 x_6 x6? |
|---|---|---|---|---|---|
| 2 | 2 | 1 | 0 | 0 | 0 |
| 2 | 0 | 2 | 1 | 0 | 0 |
| … \dots … | … \dots … | … \dots … | … \dots … | … \dots … | … \dots … |
先從6個里面選擇2個取2,再從4個里面選出1個取1,總共有
C
6
2
C
4
1
=
60
C_6^2C_4^1 = 60
C62?C41?=60種,
出現兩對點數一樣的概率為
5
?
60
1296
\frac{5 * 60}{1296}
12965?60? =
25
108
\frac{25}{108}
10825?,
范疇(Categorical)分布
范疇分布又稱為Multinoulli分布、類別分布,它是多項式分布的一個特例,
拋一次骰子,第
x
k
x_k
xk?面朝上的概率,這是Categorical分布,
小結:幾種分布的關系
- 將一個小球放入兩個桶,令變數 x x x 為第一個桶里面有的小球個數,那么只有 0 個或者 1 個,服從伯努利分布;
- 將 n n n個小球放入兩個桶,令變數 x x x 為第一個桶里面的小球個數,那么最少可能有 0 個,最多可能有 n n n個,服從二項分布;
- 將一個小球放入 k k k個桶,令變數 x = { x 1 , x 2 , … , x k } x = \{x_1, x_2, \dots, x_k\} x={x1?,x2?,…,xk?} 為 k k k個桶內的小球個數, x x x是一個One-hot形式的向量,因為這個小球只能在一個桶里面,服從Categorical分布;
- 將 n n n個小球放入 k k k個桶,令變數 x = { x 1 , x 2 , … , x k } x = \{x_1, x_2, \dots, x_k\} x={x1?,x2?,…,xk?} 為 k k k個桶內的小球個數, x x x是一個向量,元素和為 n n n,服從多項分布,
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/289819.html
標籤:AI
