博弈論學習筆記

一、博弈論（Game Theory)介紹

起源：《孫子兵法》最早的一部博弈論專著，但沒有理論化

關鍵人物：馮·諾依曼，博弈論之父，《博弈論與經濟行為》證明了博弈論基本原理

關鍵人物：約翰·納什，納什均衡的概念和均衡存在定理

貼近生活的應用：買衣服；古董買賣；人工智能

什么是博弈論？

在一定游戲規則約束下，基于直接相互作用的條件下，各參與人依據所掌握的資訊，選擇各自的策略，以實作利益最大化的程序，

博弈分類：

1.是否合作：合作博弈；非合作博弈（靜態博弈，動態博弈）

2.對博弈各方資訊掌握不同：完全資訊博弈；非完全資訊博弈

基本假設：

人是理性假設
共同知識假設（參與者在無窮遞回意義上均知悉的事實）：資訊不對稱的情況下，博弈的結果不取決于大家怎么想，而取決于大家認為大家怎么想

二、囚徒困境：

兩個共同犯罪的人（張三和李四）被關進監獄，不能相互溝通情況，如果兩個人都不揭發對方，則由于證據不確定，每個人都坐牢半年，若一個人揭發，而另一個人沉默，則揭發者因為立功而立即獲釋，沉默者因不合作而入獄五年；若相互揭發，則因證據確鑿，二者都判刑三年，

前面數字為張三坐牢時間，后面數字為李四坐牢時間，

假設李四選擇揭發，則張三選擇揭發坐牢時間更短；假設李四選擇沉默，則張三選擇揭發同樣坐牢時間更短；所以無論李四怎么選擇，張三選擇揭發都收益最大，由于囚徒無法信任對方，因此傾向于互相揭發，而不是同守沉默，

囚徒困境產生的原因：

1.雙方都有占優策略

a1>a3,a2>a4時，張三選擇揭發占優；

b1>b3,b2>b4時，李四選擇揭發占優；

2.有一個合作解，使雙方收益都優于其在占優策均衡下的收益

即：a1<a4,b2<b4，如果雙方合作，會有更好地結果，

兩人雙策略對稱博弈，滿足P>S>R>T，則選擇個人占優策略（R,R）構成囚徒困境，

原因：個人理性與集體非理性

如何破解囚徒困境？打破囚徒困境形成條件

不只為自己著想，考慮大家的利益
相互有資訊溝通，打破猜疑和資訊繭房

三、納什均衡

基本概念：

策略集合：策略集合是由玩家能夠實行的策略所組成的集合，例如游戲剪刀石頭布的策略集合是{出剪刀；出石頭；出布}

收益矩陣：玩家在游戲中，每一個策略所對應的收益所組成的矩陣

小雞游戲：

甲和乙的策略集合都是{選雞；選鷹}
顯然，這個游戲最好的結果是甲和乙同時選擇“雞”，這樣他們兩個都可以得4分
但是，如果甲選“雞”的話，乙應該選“鷹”，這樣他可以得5分而不是4分，我們把乙當他知道甲選“雞”的時候選“鷹”，稱為他的一個最優策略，反之亦然

納什均衡：在博弈中，如果每個參與者在已知其他參與者策略的情況下，采用最優策略應對，那么我們就達到了一個納什均衡，或者找到了一個納什均衡解，同時也意味著沒有人能夠通過改變自己的策略，獲得更好的結果，

在小雞游戲中，明顯（雞，鷹）和（鷹，雞）是納什均衡，

純策略納什均衡：參與者只能使用策略集合中的一條策略

（純）納什均衡可以存在多個，也可能不存在
以小雞游戲為例，對于甲和乙來說，他們分別的策略集合只包含了{選雞，選鷹}兩個策略，在純策略納什均衡下，他們只能使用其中的一條策略

混合策略納什均衡：沒有人能通過改變自己的混合策略，獲得更好地結果，即在混合策略納什均衡下，參與者無法通過改變自己的組合策略而獲利，

混合策略 $\displaystyle \sigma$ 是以某種概率選擇策略集合中的不同的策略，

例如：假設策略集合 $\displaystyle S=\left \{ S1,S2,S3 \right \}$ ，

純策略 $\sigma ^1$ 的策略是只選擇S1，選擇其他策略的概率為0，即

$P_{\sigma ^1}(S1)=1,P_{\sigma ^1}(S2)=0,P_{\sigma ^1}(S3)=0$

混合策略 $\sigma^2$ 的策略是有一半概率選擇S1，一半概率選擇S2，選擇策略S3的概率為0，即

$P_{\sigma ^2}(S1)=P_{\sigma ^2}(S2)=\frac{1}{2},P_{\sigma ^2}(S3)=0$

混合策略 $\sigma^3$ 的策略是選擇每個策略的概率都是1/3，即

$P_{\sigma ^3}(S1)=P_{\sigma ^3}(S2)=P_{\sigma ^3}(S3)=\frac{1}{3}$

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/290175.html

標籤：其他

上一篇：人生中的第一篇博客

下一篇：關于 Unity 啟動彈 Your project was last saved with a different version of Unity 彈窗的解決辦法