博弈论笔记1:囚徒困境与纳什均衡
1?個體最優(yōu)與社會最優(yōu)
1.1 社會基本問題
社會:個體之間有互動行為&相互依賴的群體
羊群效應:大家做什么,我就跟著做什么,不管對錯和原因
?
協(xié)調(diào)問題:兩人迎面走來,誰左誰右?(核心:人們?nèi)绾晤A測他人的行為)
合作問題:囚徒困境(核心:個體理性和集體理性的折衷)
等邊際原理:如果每一種資源都存在著邊際收益遞減,那么最優(yōu)的資源配置策略應該滿足:最后一單位資源無論用在哪一種用途上,都會產(chǎn)生相同的收益。 【資源在每一種用途上的邊際貢獻相等】
1.2 個體理性行為
理性人:有一個明確的偏好+在給定約束條件下,這個人總是追求自我偏好最大化。
?
輸贏的不對稱:當人們面臨風險決策時, 他們更在乎的是成功與失敗,贏和輸, 財富的變化,而不是最終的財富狀態(tài);(比如說,100元損失導致的效用的減少遠遠大于100收益導致的效用的增加)——>人們是損失規(guī)避型的(loss aversion);
1.3 社會最優(yōu)
1.3.1 帕累托效率標準:
帕累托效率:一種社會狀態(tài),與該狀態(tài)相比,不存在任何一種可選擇的狀態(tài),使得至少一個人的狀態(tài)更好,同時沒有任意一個人的狀態(tài)變差
帕累托改進:改變一種狀態(tài),使得沒有任何一個人的處境變壞,但是至少有一個人的處境變好了
**從非帕累托最優(yōu)點到帕累托最優(yōu)點不一定是帕累托改進
1.3.2 卡爾多-希克斯標準
總量最大化
2 囚徒困境
2.1 占優(yōu)策略
不管對方使用什么樣的戰(zhàn)略,只要參與人使用這一戰(zhàn)略,都可以給自己帶來最大的收益。
理性人做決策的時候,不需要假定對方是理性的。
占優(yōu)戰(zhàn)略均衡:由占優(yōu)戰(zhàn)略組成的戰(zhàn)略組合。
2.2 囚徒困境
盡管合作能讓雙方更好,但雙方仍然不會合作
怎么比較好地去記一個方框里面哪個是甲的收益哪個是乙的收益呢?我們畫一條線,斜線上方的就是表格“上方”的乙的收益;斜線左邊的就是表格“左邊”的甲的收益。
兩個假設:
? ? ? ?R>T>P>S
? ? ? ?T+T>R+S
只要滿足這兩個條件,一定是個人理性選擇不滿足集體理性選擇。
在這兩個假設下,集體理性肯定是選擇(合作,合作),這樣總體的利益最高。
但是個人理性觀點下呢?
以甲為例,當乙合作的時候,我們看下圖藍框框住的部分。如果甲合作,那么甲收益為T;甲不合作,甲的收益為R,又R>T,所以乙合作的時候,甲會不合作;同理,乙不合作的時候,甲也不合作(P>S)。所以無論乙怎么選擇,甲都不合作。
乙同理,不論甲怎么選擇,乙的占優(yōu)策略都是不合作
2.2.1 囚徒困境的解決方法
設立獎懲機制,適當?shù)販p少R,增大S
如果需要二者合作,那么T+aT≥R+aS,S+aR≥P+aP
3 智豬博弈
我們先考慮小豬:
如果大豬做,那么小豬不做;如果大豬不做,那么小豬也不做——>小豬的占優(yōu)策略是不做
我們考慮大豬:
如果小豬做,那么大豬不做;如果小豬不做,那么大豬做——>大豬沒有占優(yōu)策略。
但如果大豬事先知道小豬是理性的,那么大豬就會知道小豬不做,所以對于大豬來說,只剩下一半的博弈矩陣,那么大豬選擇做就可以了。
所以最后的均衡狀態(tài)是(做,不做)
4 納什均衡
納什均衡:所有參與人的最優(yōu)戰(zhàn)略的組合,給定這一組合中其他參與人的選擇,沒有任何人有積極性改變自己的選擇。
?
混合戰(zhàn)略納什均衡:均衡結(jié)果是參與人以某一概率隨機選擇行動。
純戰(zhàn)略納什均衡:參與人確定的選擇某一個特定的戰(zhàn)略【退化混合戰(zhàn)略納什均衡】。
4.1 監(jiān)督博弈
假如一開始是(偷懶,偷懶)
->如果老板偷懶,那么工人不偷懶
->如果工人不偷懶,那么老板不偷懶
->如果老板不偷懶,那么工人偷懶
->如果工人偷懶,那么老板偷懶
這樣又循環(huán)回去了,也就是說,這里沒有純戰(zhàn)略的納什均衡。
?
假如老板認為員工偷懶的概率是P,不偷懶的概率是1-P。
從老板的角度,自己不偷懶的期望收益是-2*P+2*(1-P)=2-4P,偷懶的期望收益是1*P+-1*(1-P)=2P-1
從員工的角度,自己不希望老板猜到自己偷懶還是不偷懶:
2-4P=2P-1 ->? P=1/2
這時,員工1/2的概率偷懶,1/2的概率不偷懶
?
假如老板以Q的概率偷懶,1-Q的概率不偷懶
從員工的角度,自己偷懶的期望收益是-1*Q+3*(1-Q)=3-4Q
自己不偷懶的期望收益是2*Q+2&(1-Q)=2
還是兩者應該相等
所以Q=1/4
也就是老板以1/4的概率偷懶,3/4的概率不偷懶
?
所以,這個博弈的納什均衡是,員工1/2的概率偷懶,1/2的概率不偷懶;老板1/4的概率偷懶,3/4的概率不偷懶。
4.2 納什均衡的存在性
每一個有限博弈至少存在一個納什均衡(純戰(zhàn)略或混合戰(zhàn)略);
? 如果一個博弈存在兩個純戰(zhàn)略納什均衡,那么,一定存在第三個混合戰(zhàn)略納什均衡。如果有偶數(shù)個純納什均衡,那么必然至少存在一個混合納什均衡)
?
《新程序員》:云原生和全面數(shù)字化實踐50位技術專家共同創(chuàng)作,文字、視頻、音頻交互閱讀總結(jié)
以上是生活随笔為你收集整理的博弈论笔记1:囚徒困境与纳什均衡的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 文巾解题 292. Nim 游戏
- 下一篇: pytorch笔记:实例解析NLLLos