博弈论笔记:不完全信息与声誉
1 連鎖店悖論
我們看以下的情況
假設市場上一共有20個在位者。
如果這20個在位者互相沒有關系:
????????我們用逆向思維考慮精煉納什均衡。
????????當一個進入者要進入的時候,單個在位者會選擇默許。
????????然后在在位者選擇默許的情況下,進入者會選擇進入。
? ? ? ? ——》于是最后的均衡情況為,進入者進入,20個在位者默許
如果20個在位者組成了連鎖店:
? ? ? ? 那么當進入者準備進入第一個市場的時候,在位者爭斗,使得進入者之后都不敢進入。
????????這樣雖然短期會賠本,但長期來看,賺的更多
2 多重均衡下的懲罰與合作
我們看一下這樣的博弈:
2.1,單次博弈
????????有兩個納什均衡(L,L),(R,R);該博弈的帕累托最優為(M,M)
2.2,兩次博弈-策略1
????????那么進行到第二次博弈的時候,由于博弈到此結束,所以雙方肯定是選擇納什均衡中的一個。
? ? ? ?如果雙方采取這樣的策略:如果第一次自己選擇M,且對方也選擇M,那么雙方會在第二次博弈中選擇R;否則的話,雙方第二次博弈中將選擇L。那么這樣雙方第一回合會不會合作呢?
? ? ? ? 我們把兩次博弈的收益合并成一張表:?
| L | M | R | |
| L | 2,2 | 6,1 | 1,1 |
| M | 1,6 | 7,7 | 1,1 |
| R | 1,1 | 1,1 | 4,4 |
????????表中只有M,M加的是3,3;別的加的都是1,1
????????此時有三個納什均衡,(L,L),(M,M),(R,R)。
????????獎懲能力主要體現在第二次博弈時,參與人可以在兩個報酬不等的納什均衡中進行選擇。
????????但是,由于(3,3)大于(1,1),理性的人在第二輪不會選擇(1,1)代替(3,3)來進行懲罰,因為這樣有損自己的利益——>這就導致了懲罰不可信。所以這是納什均衡,但不是精煉納什均衡。
2.3 兩次博弈-策略2
? ? ? ? 我們對上面的策略改進一下:
????????使得我們單次的收益如下:
此時的策略為:
如果第一次博弈甲(乙)不合作,那么第二階段乙(甲)選擇Q(P)
如果第一階段甲乙合作,那么第二階段兩者選擇R,R
那么這時候威脅可信。第一次雙方選擇合作就是精煉納什均衡了。
3 不完全信息
3.1 KMRW模型
????????如果參與人對其他參與人的效用函數和 戰略空間的信息不完全,即使博弈重復的次數是有限的,人們也有積極性建立一個合作的聲譽(reputation)。即合作會出現。3.2 單方面不完全信息
假定有兩個參與人,A和B,進行囚徒困 境博弈。如下圖。 ? 參與人A有兩中可能的類型: ? ? ? ? 1,“非理性” 型:只有一種戰略,tit-for-tat (針鋒相對,TFT),概率為p; ? ? ? ? 2,“理性”型:可 以選擇任何戰略,概率為(1-p); ? 參與人B有一種類型:理性型。3.2.1 博弈重復兩次
當博弈進行到第二次的時候,理性的B必定會選擇“背叛”以最大化自己的收益
如果A是理性的,那么A第二次會選擇背叛
如果A是非理性的,那么A第二次的選擇會取決于B第一次的選擇
如果A是理性的,那么他在第一次也一定會選擇背叛(因為無論A選擇哪個,B第二次一定是背叛)
如果A是非理性的,那么他第一次一定會本能地選擇合作
但B的第一次則無法確定。因為他不清楚A是不是理性的,如果一開始背叛的話,會有一定概率失去第二次賺更多的可能性。
所以我們重點看一下B第一次的選擇:
1)如果B第一次選擇背叛:
第一階段:
A有p的概率合作,此時B獲利4*p
A有1-p的概率不合作,此時B獲利0*(1-p)
綜合來說,B第一階段獲利4P
第二階段:
A無論理性不理性,都會背叛,所以B獲利0
總之,如果B選擇背叛,其兩階段總獲利為4P
2)如果B第一次選擇合作
第一階段:
A有p的概率合作,此時B獲利3*p
A有(1-p)的概率不合作,此時B獲利-1*(1-p)=-1+p
第二階段
A有p的概率合作,此時B獲利4*p (非理性會繼續合作)
A有1-p的概率不合作,此時B獲利0
總之,如果B選擇合作,其兩階段獲利為8p-1
如果8p-1≥4p,即p≥0.25,那么B會選擇合作
3.2.2 博弈重復三次
如果A是理性的,那么他在第一階段就不合作不一定是最好的選擇(因為如果自己第一階段就背叛,那么立馬暴露了自己理性的特點,那么B在第二階段也會選擇背叛)
但如果A是理性的,倒數第二階段和最后一個階段肯定是背叛。(因為B是理性的,所以最后一個階段一定會背叛,所以A最后一個階段也要背叛;然后倒數第二個階段A也不用“藏著掖著”了,選擇背叛與否,也就是自己理性狀態暴露與否都不會影響理性B最后一次的決策。)
——>A要抉擇自己在第一輪暴露身份是否值得(因為 建立一個合作的形象可以換取B在第2階段的合作;)
我們先看理性的A:
如果p(A非理性的概率)>=0.25, 并且A認為B在第1階段會合作。
給定A在第1階段合作的話B在在第2階段也會合作,那么A選擇合作得到:3+4+0=7;
如果A選擇背叛,得到:4+0+0=4; 所以如果在上述情況下,A在第一階段合作是最優的。 我們再看B: 我們分別討論一下: 整合一下四種情況: 結論如下: 只要p>=0.25, 下表所列戰略組合是一個 精煉納什均衡: – 理性型A在第1階段選擇合作,然后在第2和 第3階段選擇背叛; – B在第1和第2階段選擇合作,然后在第3階段背叛。 即下圖這種情況:3.3 大于等于三次博弈的一般結論
對于這樣一個博弈,只要A非理性的概率p≥0.25,那么對于所有的T≥3,下列戰略組合構成了一個精煉納什均衡
理想型A:在t=1,…..,T-2選擇合作,在T-1和T階段選擇背叛
理想型B:在t=1,…..T-1選擇合作,在T階段選擇背叛
即背叛只在最后兩個階段會出現
——信息不完全時,理性的參與人有積極性去建立一個合作型聲譽
對參與人A,如果他是理性的,那么在安完全信息的情況下他是不會合作的,但是在信息不完全的情況下,他不會過早地暴露自己的理性特征,因而在倒數第二個階段也沒有必要去假裝自己非理性。
對參與人B,如果一早就不合作,那即使對方是合作型也不會合作了。因此,權衡長遠利益&眼前利益后,B一開始也選擇合作
4 雙方信息不完全
在單方不完全信息下,只要p<0.25,不論博弈重復多少次,合作都不會出現。 但如果雙方信息不完全,即使小小的不確定性也會導致合作行為,只要博弈重 復的次數足夠多(不需要是無限次) 原因在于,如果博弈重復的次數足夠長,沒有任何一方愿意一開始就把自己的名 聲搞壞。4.1 雙方信心不完全的例子
還是之前的博弈收益
假定非理性型選擇冷酷策略(雙方一開始都合作,一旦一方不合作,之后就再也不合作了) ? 如果A在一開始就選擇背叛,暴露了自己是非合作型的,從第2期開始的唯一的均衡是每個 人都背叛;所以A的最大預期收益為: 4+0+0+…=4; ? 假定選擇如下戰略:開始選擇合作,直到對方 選擇不合作,之后永遠背叛。最小預期收益是: ?????????p(3T)+(1-p)(-1+0+0+)=p(3T)-(1-p) 如果3pT-(1-p)≥4,那么A一開始會選擇合作,此時得到一個臨界值T* 所以,無論p多小,只要博弈重復的次數 足夠大,一開始就選擇背叛不是最優的。5 KMRW定理
????????在不完全信息的情況下,只要博弈重復 的次數足夠長,參與人就有積極性在博弈的早期建立一個“合作”的聲譽;只是在博弈的后期,才會選擇背叛;并且,非合作階段的數量只與p有關,而與博弈的次數T無關。總結
以上是生活随笔為你收集整理的博弈论笔记:不完全信息与声誉的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: pyecharts应用2 柱状图
- 下一篇: GNN笔记:傅里叶变换