【文末有福利】算法博弈论
1 關于規(guī)則制定的科學
2012年奧運會在倫敦舉辦。在羽毛球賽事中,發(fā)生了一件丑聞。這件丑聞與興奮劑無關,而是由于賽制設計的失敗導致的。在設計賽制時,奧委會沒有仔細考慮運動員的動機這一關鍵因素。
奧運會羽毛球賽制的設計和足球世界杯的賽制類似。一共有四個組(A,B,C,D),每組中有四支參賽隊。賽程有兩個環(huán)節(jié)。第一個環(huán)節(jié)是小組內循環(huán)賽,每一支參賽隊與組內其他三支進行比賽,而不與其他組的參賽隊比賽。小組賽中排名前兩位的參賽隊將進入第二個環(huán)節(jié),排名后兩位的參賽隊則直接出局。第二個環(huán)節(jié)采用的是淘汰賽制。一共有四場四分之一決賽,每場失敗的參賽隊被直接淘汰;然后是兩場半決賽,半決賽中失敗的兩支參賽隊將會爭奪銅牌;決賽中的獲勝者拿金牌,負者拿銀牌。
在這樣的過程中,參賽隊、奧委會和觀眾各自的動機是不一致的。參賽隊想要的是什么?當然是拿更好的獎牌。奧委會想要的是什么?好像他們并沒有認真思考這個問題,但是在丑聞發(fā)生后,我們很清楚奧委會希望每支參賽隊都能盡全力去打每場比賽。一支參賽隊竟然會想要輸?shù)粢粓霰荣?#xff1f;在淘汰賽環(huán)節(jié),因為輸一場會導致直接被淘汰,顯然贏絕對是比輸要好的。
為了理解動機,我們需要解釋小組賽到淘汰賽的進階過程(見圖1.1)。在淘汰賽的四分之一決賽時,A組中積分最高的隊伍會和C組中排名第二的隊伍比賽,這是第一場四分之一決賽。類似的,C組中排名第一的隊伍會和A組中排名第二的隊伍比賽,這是第三場四分之一決賽。B組和D組中前兩位的隊伍會以類似的方式進行匹配,產生第二、四場四分之一決賽。問題發(fā)生在小組賽的最后一天,丹麥隊的Pedersen和Juhl(PJ)對陣中國隊的Tian和Zhao(TZ),PJ以小組第一的身份晉級淘汰賽,而TZ以小組第二的身份晉級。
第一場有爭議的比賽是中國隊的Wang和Yu(WY)與韓國隊的Jung和Kim(JK)的比賽。這兩個參賽隊的戰(zhàn)績都是組內勝兩場,所以兩隊都能提前晉級淘汰賽。但是有一個問題,本場比賽的獲勝者以A組第一名的身份晉級后,很可能在半決賽時迎戰(zhàn)上面提到的TZ隊,而TZ隊是公認的強隊。如果輸給TZ隊,則最多只能拿到銅牌。而相比而言,本場比賽的失敗者不會馬上迎戰(zhàn)TZ隊,那么銀牌就很有保障了。WY隊和JK隊都清楚這一點,所以比賽時兩隊都想輸給對方!這樣無趣的比賽導致WY和JK兩隊最終被取消參賽資格。C組中的另外兩個參賽隊也因為相似的原因被取消參賽資格。(在這屆奧運會中,PJ隊在四分之一決賽中被淘汰,TZ隊最終獲得金牌。)
問題的關鍵在于,在一個由策略型參與者組成的系統(tǒng)中,規(guī)則是至關重要的!未經精心設計的系統(tǒng)會招致意想不到的結果。出現(xiàn)這樣結果的責任在于系統(tǒng)的設計者而不是參與者,設計者應該預見到參與者的策略,而不能要求參與者違背自己的利益行事。我們不能責怪參賽的羽毛球隊,他們在比賽時使用對自己有利的策略并沒有錯。
機制設計是一門成熟的、關于決策的科學。機制設計的目標是設計一系列規(guī)則,從而使得參與者的策略型行為能夠導致好的結果。本書中所涉及的機制設計的經典應用包括關鍵字搜索拍賣、無線頻譜拍賣、醫(yī)院和病人的匹配以及腎臟交換等問題。第2~10章涵蓋了傳統(tǒng)經濟學中關于機制設計的基礎知識,以及計算機科學對于機制設計的貢獻,包括計算效率、近似優(yōu)化和可靠性保障等。
2 自私的行為在什么時候是近似最優(yōu)的
2.1 布雷斯悖論
有時你并沒有條件從零開始來構建博弈,而是要先根據(jù)現(xiàn)實狀況理解博弈。考慮圖1.2中所示的布雷斯悖論問題。有一個源節(jié)點o,一個目標節(jié)點d,還有固定數(shù)量的司機要從o出發(fā)到d去。現(xiàn)在先假設o和d之間有兩條不相干的路徑,每條路徑都是由一段長但寬闊的路和一段短但狹窄的路組成的(圖1.2a)。假設在長但寬闊的路段上,不論有多少交通流,所需的行程時間都是1小時;假設在短但狹窄的路段上,所需要的時間等于其上所承擔的交通流的百分比。圖1.2a中邊上的數(shù)值就是這段路程所需的時間。每一條路徑上的總體時間代價是1+x,其中x就是使用這條路徑的交通流的比例。因為兩條路徑相互獨立,交通流會在這兩條路徑上均分。這樣,每一個司機從o出發(fā)到達d所花費的時間都是一個半小時。
假設我們想提升交通運行能力,在圖上v和w之間增加一條可以瞬時通過的邊(圖1.2b)。這種情況下,司機會如何反應?之前的交通流模式將會被打破。每一位司機在路徑o→v→w→d上所花費的時間都不會比原先兩條路徑上的時間更多,當某些司機沒有使用這條新的路徑時,新路徑上的時間會嚴格小于原始路徑上的時間。所以,我們預期所有司機都會轉變到使用這條新的路徑。因為邊(o,v)和(w,d)上的擁堵,現(xiàn)在每一位司機從o到d所耗費的總體時間都變成了兩個小時。布雷斯悖論告訴我們,在網絡中加邊,雖然本意是好的,但有可能導致壞的結果。
布雷斯悖論還展示了自私的路由不能將司機的時間代價最小化。在一個帶有瞬時通路的網絡中,一個利他的指揮者能使每一個人的時間代價降低25%。我們將無秩序代價(Price of Anarchy,POA)定義為策略型參與者自組織情況下系統(tǒng)的表現(xiàn)與系統(tǒng)最優(yōu)表現(xiàn)的比例。對于圖1.2b所示的例子,POA=23/2=43。
在諸多應用領域中,包括網絡路由、調度、資源分配和拍賣,在合理的條件下,POA都可以趨近于1。在這樣的情況下,自私的行為會導致近似最優(yōu)的結果。
2.2 線與彈簧
布雷斯悖論不僅僅適用于交通網絡,它還能與機械網絡“線與彈簧”對應起來。在圖1.3所示的設備中,一只彈簧的一頭固定在頂上,另一頭連著一條線。還有另一只相同的彈簧,一頭被這條線吊著,另一頭拉著一個重物。上面這只彈簧的下部到重物連有一條松弛的線,下面這只彈簧的上部到頂連有一條松弛的線。
如果合理選擇彈簧和線,這個機械網絡可以達到一個均衡的位置,如圖1.3a所示。可能很難相信的是,如果剪掉中間這條緊的線,會使重物被提起來,如圖1.3b所示。這個現(xiàn)象的原因是一開始兩只彈簧是串聯(lián)的,所以每一只都承受了重物的全部重量。在剪掉中間的線之后,彈簧形成了并聯(lián),共同分擔了重量,所以只拉伸了一半。在這個例子中,重物位置的提升,和交通網絡例子中瞬時連邊被移除后時間代價的減少有相同的效果。
3 策略型參與者能通過學習算出一個均衡嗎
有一些博弈并不難玩。例如,在圖1.2b中,使用瞬時連邊是不需要思考的,不論其他司機怎么做,每個人都會選擇走這條路。但是在大多數(shù)博弈中,一個參與者的最優(yōu)動作要取決于其他參與者在做什么。下面所示的石頭-剪刀-布博弈就是一個經典的例子。
兩個參與者,其中一人選擇某一行,另一人選擇某一列。矩陣每一個格子里的兩個數(shù)分別代表行參與人的收益和列參與人的收益。更一般地,一個雙人博弈包含每個參與者的有限策略集合,以及在每種策略組合下各方所獲得的收益。
均衡就是系統(tǒng)的穩(wěn)定狀態(tài)。在這個狀態(tài)下,對每一個參與者來說,如果其他參與者保持不變,那這個參與者也會想保持不變。在石頭-剪刀-布博弈中,沒有確定性的均衡:不論當前的狀態(tài)是哪種,至少有一個參與者可以通過單方面改變策略來獲得高收益。例如,博弈局勢(石頭,布)不可能是一個均衡,因為行參與者可以通過單方面改變到剪刀來獲得更高的收益。
在實際玩石頭-剪刀-布時,看起來對手好像是在隨機選擇三種策略。這樣一個在所有策略上的概率分布稱為混合策略。如果兩個參與者都平均地隨機選擇自己的三種策略,則沒有任何一個人能夠通過單方面改變策略來獲得更高的收益(任何的單方面改變策略都會導致期望收益為0)。這樣的概率分布所形成的策略對就叫作(混合策略)納什均衡。
如果允許隨機,那么每一個博弈都至少含有一個納什均衡。
定理1.1(納什定理) 任何一個有限的雙人博弈都含有納什均衡。
納什定理在任何含有有限人數(shù)的博弈中都成立。
納什均衡是否可以由一種算法或者一個策略型參與者自己很快計算出來呢?在石頭-剪刀-布這樣的零和博弈中,納什均衡可以使用線性規(guī)劃方法很快計算出來;或者如果允許很小的錯誤發(fā)生,也可以通過簡單的迭代學習算法計算出來。這些算法的結果使得我們相信納什均衡對于零和博弈有很好的預測能力。
但是在非零和雙人博弈中,近期的研究結果表明,并不存在能計算納什均衡的快速算法。有趣的是,NP困難性這一復雜度的標準好像并不適用于納什均衡的計算。在這種意義上講,計算雙人博弈的納什均衡是一個少有的、自然的且展現(xiàn)出中等計算困難度的問題。
在關于均衡概念的很多版本的詮釋中,牽扯到某些智能體(參與者或者博弈設計者)來決定一個均衡。如果所有的參與者都是有限理性的,只有當一個均衡的計算代價能夠被接受的時候,它才可以被視為可信的預測。所以,計算困難性給均衡概念的預測能力提出了質疑。在計算困難性之前,還有其他對于納什均衡的質疑。例如,博弈可以含有多個納什均衡,而這種非唯一性也削弱了均衡的預測能力。即便如此,來自計算困難性的批評仍然是很重要的,并且,這是使用計算機科學中的概念很自然地構建出來的。計算困難性還為我們提供了動機,使得我們去研究計算可行的均衡概念,例如相關均衡和粗糙相關均衡。
總結
●2012年奧運會的女子羽毛球賽丑聞是由于參賽隊和奧組委的目標不一致而導致的。
●在一個系統(tǒng)中,系統(tǒng)設計者有責任預測參與者的策略,而不應該指望著參與者違背自己的利益行事。
●布雷斯悖論告訴我們,在網絡中修一條高速通道有可能會給交通造成負面的影響。類似的,在線和彈簧的系統(tǒng)中剪掉一條線可能會使得重物的位置上升。
●無秩序代價(POA)是策略型參與者自組織情況下系統(tǒng)的表現(xiàn)與系統(tǒng)最優(yōu)表現(xiàn)的比值。當POA接近1時,說明自私的行為大體上是良性的。
●博弈的組件包括:一個參與者集合,每個參與者有一個策略集合,在每一個博弈局勢下,每一個參與者都有一個收益。
●在納什均衡下,任何參與者都不能通過單方面變更自己的策略而增加收益。納什定理說明,每個有限博弈至少含有一個混合策略納什均衡。
●計算雙人博弈的納什均衡是現(xiàn)實世界中少有的體現(xiàn)出中等計算困難的實例。
說明
Hartline和Kleinberg(2012)將奧運會女子羽毛球賽丑聞和機制設計問題聯(lián)系起來。布雷斯悖論來自于Braess(1968),線和彈簧問題可以參考Cohen和Horowitz(1991)。關于布雷斯悖論的相關引用和泛化參見Roughgarden(2006)。Koutsoupias和Papadimitrious定義了無秩序代價。定理1.1來自于Nash(1950)。“市場會不精確地為一個重要的計算性問題找到一個解”,這一思想可以追溯到亞當·斯密的“看不見的手”(Smith,1776)。Rabin(1957)率先討論了有限理性和某些均衡概念之間的沖突。
*本文摘編自《斯坦福算法博弈論二十講》
推薦閱讀
計算機科學與經濟學的交互產生了“算法博弈論”這一新的研究領域。對于計算機科學中的諸多核心問題,其本質上都涉及多個自私個體之間的交互,經濟學和博弈論為這樣的問題提供了豐富的推理模型和定義系統(tǒng)。而對于傳統(tǒng)經濟學中的問題,計算機科學也起到了補充作用,例如關于計算復雜性、近似邊界以及貝葉斯或平均情況分析的研究。本書源于斯坦福大學“算法博弈論”課程講義,通過具有代表性的模型和結論,幫助讀者快速了解這一領域的重要概念。
新書上市,長按二維碼了解及購買
***粉絲福利時間***
評論區(qū)留言,點贊數(shù)前5可獲得此書!!!
以48個小時計!
注:若是在活動截止日期后24小時內無法取得用戶回復或聯(lián)系,將按照留言點贊排名順延。
總結
以上是生活随笔為你收集整理的【文末有福利】算法博弈论的全部內容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: 因为瘟疫,英国诞生了一个又一个的科学家
- 下一篇: AI算法连载17:统计之半监督学习
