博弈论学科整体概览
一、博弈論的概念
博弈論又被稱為對策論(Game Theory)既是現代數學的一個新分支,也是運籌學的一個重要學科。博弈論主要研究公式化了的激勵結構間的相互作用。是研究具有斗爭或競爭性質現象的數學理論和方法。博弈論考慮游戲中的個體的預測行為和實際行為,并研究它們的優化策略。博弈論已經成為經濟學的標準分析工具之一。
二、博弈論的發展歷程
博弈論是二人在平等的對局中各自利用對方的策略變換自己的對抗策略,達到取勝的目的。博弈論思想古已有之,中國古代的《孫子兵法》等著作就不僅是一部軍事著作,而且算是最早的一部博弈論著作。博弈論最初主要研究象棋、橋牌、賭博中的勝負問題,人們對博弈局勢的把握只停留在經驗上,沒有向理論化發展。
博弈論考慮游戲中的個體的預測行為和實際行為,并研究它們的優化策略。
近代對于博弈論的研究,開始于策梅洛(Zermelo),波萊爾(Borel)及馮·諾依曼(von Neumann)。
1928年,馮·諾依曼證明了博弈論的基本原理,從而宣告了博弈論的正式誕生。1944年,馮·諾依曼和摩根斯坦共著的劃時代巨著《博弈論與經濟行為》將二人博弈推廣到n人博弈結構并將博弈論系統地應用于經濟領域,從而奠定了這一學科的基礎和理論體系。
1950~1951年,約翰·福布斯·納什(John Forbes Nash Jr)利用不動點定理證明了均衡點的存在,為博弈論的一般化奠定了堅實的基礎。納什的開創性論文《n人博弈的均衡點》(1950),《非合作博弈》(1951)等等,給出了納什均衡的概念和均衡存在定理。此外,萊因哈德·澤爾騰、約翰·海薩尼的研究也對博弈論發展起到推動作用。今天博弈論已發展成一門較完善的學科。
三、博弈論的要素
(1)局中人:在一場競賽或博弈中,每一個有決策權的參與者成為一個局中人。只有兩個局中人的博弈現象稱為“兩人博弈”,而多于兩個局中人的博弈稱為 “多人博弈”。
(2)策略:一局博弈中,每個局中人都有選擇實際可行的完整的行動方案,即方案不是某階段的行動方案,而是指導整個行動的一個方案,一個局中人的一個可行的自始至終全局籌劃的一個行動方案,稱為這個局中人的一個策略。如果在一個博弈中局中人都總共有有限個策略,則稱為“有限博弈”,否則稱為“無限博弈”。
(3)得失:一局博弈結局時的結果稱為得失。每個局中人在一局博弈結束時的得失,不僅與該局中人自身所選擇的策略有關,而且與全局中人所取定的一組策略有關。所以,一局博弈結束時每個局中人的“得失”是全體局中人所取定的一組策略的函數,通常稱為支付(payoff)函數。
(4)對于博弈參與者來說,存在著一博弈結果 。
(5)博弈涉及到均衡:均衡是平衡的意思,在經濟學中,均衡意即相關量處于穩定值。在供求關系中,某一商品市場如果在某一價格下,想以此價格買此商品的人均能買到,而想賣的人均能賣出,此時我們就說,該商品的供求達到了均衡。所謂納什均衡,它是一穩定的博弈結果。
四、博弈論的目的
博弈策略求解是博弈問題中的一個重要內容,另外一個重要的內容是博弈規則的設計:
 ??也就是說,假設博弈的參與者都是足夠理性的,如何設計一個博弈規則能確保公正性或者達到設計者的最大利益。主要的難點是:規則復雜,計算量大。
 主要應用于:
- 拍賣競價:互聯網廣告投放、車牌競價
 - 供需匹配:污染權、學校錄取
 - 公正選舉:選舉制度、表決制度、議席分配
 
五、穩定分配理論(stable matchings theory)
穩定分配理論是由2012諾獎獲得者沙普利使用合作博弈的方法來研究和對比不同的匹配方法而創立的理論。該理論的難點在于要保證一個配對是穩定的。
 穩定匹配的核心思想是實現一種穩定狀態,在這種狀態下,在匹配完結時不再存在這樣兩個市場主體,它們都更中意于他人,勝過它們當前的另一半匹配對象。在現實中,我們熟悉的8分鐘相親、學校和學生匹配等例子就是基于穩定市場匹配理論的思想發展而來的。其中雙邊模型和延遲接受算法是穩定匹配理論的兩塊重要基石。
 雙邊匹配模型很多市場及社會制度的主要功能就是讓其中的主體能和另一個主體相匹配:例如,學生和學校,職員和公司,適婚男女之間。這種市場匹配主要分為單邊市場匹配(Single-Sided MarketMatch) 和 雙邊市場匹配(Two-Sided MarketMatch)。
“單邊市場匹配”指市場中僅存在一個集合,集合中的個體根據各自的偏好相互匹配。然而,單邊市場匹配中的“室友”現象會導致匹配的不穩定。當假設存在四個“室友”{1,2,3,4},其中1最偏好2,2最偏好3,3最偏好1,且他們把4都列為最不偏好者。在這種情況下,任何兩兩分組都無法實現穩定,因為和4分在一起的人會結束當前匹配去和已經匹配的人再次匹配,且這次新的匹配將會成功,使得市場一直無法實現穩定(Gale&Shapley,1962)。
 “雙邊匹配模型”最早由Gale和Shapley(1962)從研究學生申請學校模型和婚姻穩定問題而提出。所謂的“雙邊市場”是指存在這樣一個市場,市場中有兩類個體集合,第一類集合中的個體只能和第二類集合中的個體相匹配。他們證明了在這樣一個雙邊市場中,只要個體的偏好具有完備性及可傳遞性,以及市場足夠的自由,能允許個體進行任何潛在可能的匹配,那么市場中總是存在穩定匹配。同樣以4個室友為例,假設任意2個人睡上鋪,2個人睡下鋪,現在要求只有睡不同鋪的人相互匹配,此時就形成了雙邊市場匹配模型。同時,Gale和Sha-pley指出市場匹配穩定時滿足以下兩個條件:(1)市場中不存在來自不同類的兩個個體在偏好上可以實現相互匹配,但沒有匹配的情況;(2)已經配對成功的個體不會嘗試結束當前的配對,并試圖與來自另一類且已匹配成功的個體進行匹配。
 雙邊匹配模型存在穩定匹配這一特性,使得其在理論和實踐上都得到了廣泛的關注,其中一個重要的運用就是勞動力市場的匹配。Shapley和Shubik(1972)利用數學模型抽象了一個充斥著不可分割商品的雙邊市場,市場中的每一位參與者既是商品的需求者也是商品的供給者。他們發現在這更為一般化的市場中匹配穩定的性質依舊很穩健。
   Roth最早對雙邊匹配模型在解決實踐問題中的應用進行了研究。他意識到Shapley有關穩定市場匹配的理論和計算可讓市場的運作方式變得更清晰。20世紀50年代,美國內科醫生的初級勞動力市場的組織方式能保證絕大多數個體匹配成功,但這種匹配缺乏穩定性。Roth(1984)的后續實驗研究將Shapley的匹配設計應用于內科醫生的初級勞動力市場,他的研究結果表明該種匹配方法能減少原有組織方式下所產生的匹配不穩定及其它存在的無序問題。
G-S算法(Gale-Shapley)
在規則設計里面有不同的算法,比方說有GS算法:
 在生活中,人們通常會碰到與資源匹配相關的決策問題(如求職就業、報考錄取等),這些需要雙向選擇的情況被稱為是雙邊匹配問題。在雙邊匹配問題中,需要雙方互相滿足對方的需求才會達成匹配。
 1962年,美國數學家大衛·蓋爾和博弈論學家沙普利提出了針對雙邊穩定匹配問題的解決算法,并將其應用于穩定婚姻問題的求解。
 穩定婚姻問題(stable marriage problem)是指在給定成員偏好的條件下,分兩組成員尋找穩定匹配。由于這種匹配并不是簡單地價高者得,所以匹配解法應考慮雙方意愿。
 穩定婚姻問題的穩定解是指不存在未達成匹配的兩個人都更傾向于選擇對方勝過自己當前的匹配對象。
最大交易圈算法(Top-Trading Cycle algorithm)
匹配問題中,還有一類交換不可分的的標的物的匹配問題,被稱為單邊匹配問題,如遠古時期以物易物、或者宿舍的床位分配。
 1974年,沙普利和斯夫提出了針對單邊匹配問題的穩定匹配算法:最大交易圈算法(TTC),算法過程如下:
 首先每個交易者連接一條指向他最喜歡的標的物的邊,并從每一個標的物連接到其占有者或者是具有最高優先權的交易者。
 此時形成一張有向圖,且比存在交易圈,對于交易圈中的交易者,將每人指向節點所代表的標的物賦予其,同時交易者放棄原先占有的標的物,占有者和匹配成功的標的物離開匹配市場
 接著從剩余的交易者和標的物之間重復進行交易圈匹配,直到無法形成交易圈,算法停止。
室友匹配問題
六、博弈論的類型
博弈的分類根據不同的基準也有不同的分類。
一般認為,博弈主要可以分為合作博弈和非合作博弈。合作博弈和非合作博弈的區別在于相互發生作用的當事人之間有沒有一個具有約束力的協議,如果有,就是合作博弈,如果沒有,就是非合作博弈。
從行為的時間序列性,博弈論進一步分為靜態博弈、動態博弈兩類:靜態博弈是指在博弈中,參與人同時選擇或雖非同時選擇但后行動者并不知道先行動者采取了什么具體行動;動態博弈是指在博弈中,參與人的行動有先后順序,且后行動者能夠觀察到先行動者所選擇的行動。通俗的理解:"囚徒困境"就是同時決策的,屬于靜態博弈;而棋牌類游戲等決策或行動有先后次序的,屬于動態博弈。
按照參與人對其他參與人的了解程度分為完全信息博弈和不完全信息博弈。完全博弈是指在博弈過程中,每一位參與人對其他參與人的特征、策略空間及收益函數有準確的信息。不完全信息博弈是指如果參與人對其他參與人的特征、策略空間及收益函數信息了解的不夠準確、或者不是對所有參與人的特征、策略空間及收益函數都有準確的信息,在這種情況下進行的博弈就是不完全信息博弈。
經濟學家們所談的博弈論一般是指非合作博弈,由于合作博弈論比非合作博弈論復雜,在理論上的成熟度遠遠不如非合作博弈論。非合作博弈又分為:完全信息靜態博弈,完全信息動態博弈,不完全信息靜態博弈,不完全信息動態博弈。與上述四種博弈相對應的均衡概念為:納什均衡(Nash equilibrium),子博弈精煉納什均衡(subgame perfect Nash equilibrium),貝葉斯納什均衡(Bayesian Nash equilibrium),精煉貝葉斯納什均衡(perfect Bayesian Nash equilibrium)。
博弈論還有很多分類,比如:以博弈進行的次數或者持續長短可以分為有限博弈和無限博弈;以表現形式也可以分為一般型(戰略型)或者展開型;以博弈的邏輯基礎不同又可以分為傳統博弈和演化博弈。
下面列舉了一些我們經常會提到的博弈模型,可以作為入門的興趣導師——
智豬博弈——搭好順風車,借力成事
Boxed pigs game, 一個著名的納什均衡的例子
槍手博弈——對比關系及策略決定強弱
囚徒困境——個人理性與集體的非理性
Prisoner’s Dilemma, 是博弈論的非零和博弈中具代表性的例子,反映個人最佳選擇並非團體最佳選擇
斗雞博弈——狹路相逢勇者未必勝
Chicken Game,又叫草雞博弈、懦夫博弈、膽小鬼博弈
分蛋糕博弈——討價還價的策略
以牙還牙——有一種智慧叫寬恕
Tit for tat,是一個用于博弈論的重復囚徒困境(Reiterated Prisoner’s Dilemma)非常有效的策略
鷹鴿博弈——路徑依賴法則新解
Hawk Dove game ——進化中的路徑依賴
 該模型的兩個純策略均衡類似于膽小鬼博弈,而混合策略均衡則導出了進化穩定策略的概念。此外還有不完全信息條件下的貝葉斯博弈版本。
蜈蚣博弈——從后往前的推理
Centipede game
獵鹿博弈——合作是硬道理
Stag Hunt Game, 又稱獵鹿模型(Stag Hunt Model)、獵人的帕累托效率
酒吧博弈——求同存異的智慧
Bar Problem
鲇魚效應——有競爭才有發展
Catfish Effect
重復博弈——沖突與合作方能共享
Repeated Games, 是指同樣結構的博弈重復許多次,其中的每次博弈稱為“階段博弈”(stage games)。重復博弈是動態博弈中的重要內容,它可以是完全信息的重復博弈,也可以是不完全信息的重復博弈。
 重復博弈所指的是一類特殊的擴展形式的博弈(extensive form game)。此類博弈中包含一個基礎博弈(base game)——稱為階段博弈(stage game);在整個重復博弈中,該階段博弈會被重復一定次數。階段博弈一般是一個大家熟悉的博弈(如囚徒困境)。類似的,非重復博弈也可稱為單一階段博弈(single stage game)或單次博弈(single shot game)。
協和謬誤——欲罷不能的錯上加錯
Coordination Problem, 即某件事情在投入了一定成本、進行到一定程度而后發現不宜繼續下去,卻苦于各種原因而將錯就錯,欲罷不能
信息甄別——酒好不怕巷子深
人質困境——雪上加霜的囚徒困境
臟臉博弈——都是共同知識惹的禍
成本博弈——擺脫沉沒成本羈絆的策略
手表定律——標準不同結論就不同
Watch Law
策略均衡——誰也不得罪
strategy equilibrium
本文部分選自
 作者:深度學習與先進智能決策
 鏈接:https://juejin.im/post/5e33cf9f5188252c5232b039
 來源:掘金
 著作權歸作者所有。商業轉載請聯系作者獲得授權,非商業轉載請注明出處。
總結
                            
                        - 上一篇: 卫星导航定位 -- 坐标系统与时间系统
 - 下一篇: linux查看端口进程号(linux查看