博弈論學習筆記
一、博弈論(Game Theory)介紹
起源:《孫子兵法》最早的一部博弈論專著,但沒有理論化
關鍵人物:馮·諾依曼,博弈論之父,《博弈論與經濟行為》證明了博弈論基本原理
關鍵人物:約翰·納什,納什均衡的概念和均衡存在定理
貼近生活的應用:買衣服;古董買賣;人工智能
什么是博弈論?
在一定游戲規則約束下,基于直接相互作用的條件下,各參與人依據所掌握的資訊,選擇各自的策略,以實作利益最大化的程序,
博弈分類:
1.是否合作:合作博弈;非合作博弈(靜態博弈,動態博弈)
2.對博弈各方資訊掌握不同:完全資訊博弈;非完全資訊博弈
基本假設:
- 人是理性假設
- 共同知識假設(參與者在無窮遞回意義上均知悉的事實):資訊不對稱的情況下,博弈的結果不取決于大家怎么想,而取決于大家認為大家怎么想
二、囚徒困境:
兩個共同犯罪的人(張三和李四)被關進監獄,不能相互溝通情況,如果兩個人都不揭發對方,則由于證據不確定,每個人都坐牢半年,若一個人揭發,而另一個人沉默,則揭發者因為立功而立即獲釋,沉默者因不合作而入獄五年;若相互揭發,則因證據確鑿,二者都判刑三年,

前面數字為張三坐牢時間,后面數字為李四坐牢時間,
假設李四選擇揭發,則張三選擇揭發坐牢時間更短;假設李四選擇沉默,則張三選擇揭發同樣坐牢時間更短;所以無論李四怎么選擇,張三選擇揭發都收益最大,由于囚徒無法信任對方,因此傾向于互相揭發,而不是同守沉默,
囚徒困境產生的原因:

1.雙方都有占優策略
a1>a3,a2>a4時,張三選擇揭發占優;
b1>b3,b2>b4時,李四選擇揭發占優;
2.有一個合作解,使雙方收益都優于其在占優策均衡下的收益
即:a1<a4,b2<b4,如果雙方合作,會有更好地結果,

兩人雙策略對稱博弈,滿足P>S>R>T,則選擇個人占優策略(R,R)構成囚徒困境,
原因:個人理性與集體非理性
如何破解囚徒困境?打破囚徒困境形成條件
- 不只為自己著想,考慮大家的利益
- 相互有資訊溝通,打破猜疑和資訊繭房
三、納什均衡
基本概念:
策略集合:策略集合是由玩家能夠實行的策略所組成的集合,例如游戲剪刀石頭布的策略集合是{出剪刀;出石頭;出布}
收益矩陣:玩家在游戲中,每一個策略所對應的收益所組成的矩陣
小雞游戲:

- 甲和乙的策略集合都是{選雞;選鷹}
- 顯然,這個游戲最好的結果是甲和乙同時選擇“雞”,這樣他們兩個都可以得4分
- 但是,如果甲選“雞”的話,乙應該選“鷹”,這樣他可以得5分而不是4分,我們把乙當他知道甲選“雞”的時候選“鷹”,稱為他的一個最優策略,反之亦然
納什均衡:在博弈中,如果每個參與者在已知其他參與者策略的情況下,采用最優策略應對,那么我們就達到了一個納什均衡,或者找到了一個納什均衡解,同時也意味著沒有人能夠通過改變自己的策略,獲得更好的結果,
在小雞游戲中,明顯(雞,鷹)和(鷹,雞)是納什均衡,
純策略納什均衡:參與者只能使用策略集合中的一條策略
- (純)納什均衡可以存在多個,也可能不存在
- 以小雞游戲為例,對于甲和乙來說,他們分別的策略集合只包含了{選雞,選鷹}兩個策略,在純策略納什均衡下,他們只能使用其中的一條策略
混合策略納什均衡:沒有人能通過改變自己的混合策略,獲得更好地結果,即在混合策略納什均衡下,參與者無法通過改變自己的組合策略而獲利,
混合策略是以某種概率選擇策略集合中的不同的策略,
例如:假設策略集合,
- 純策略
的策略是只選擇S1,選擇其他策略的概率為0,即
- 混合策略
的策略是有一半概率選擇S1,一半概率選擇S2,選擇策略S3的概率為0,即
- 混合策略
的策略是選擇每個策略的概率都是1/3,即






轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/290175.html
標籤:其他
上一篇:人生中的第一篇博客
下一篇:關于 Unity 啟動彈 Your project was last saved with a different version of Unity 彈窗的解決辦法
