(转)博弈问题与SG函数
博弈問題
若你想仔細(xì)學(xué)習(xí)博弈論,我強(qiáng)烈推薦加利福尼亞大學(xué)的Thomas S. Ferguson教授精心撰寫并免費(fèi)提供的這份教材,它使我受益太多。(如果你的英文水平不足以閱讀它,我只能說,恐怕你還沒到需要看“博弈論”的時候。)
Nim游戲是博弈論中最經(jīng)典的模型(之一?),它又有著十分簡單的規(guī)則和無比優(yōu)美的結(jié)論,由這個游戲開始了解博弈論恐怕是最合適不過了。
Nim游戲是組合游戲(Combinatorial Games)的一種,準(zhǔn)確來說,屬于“Impartial Combinatorial Games”(以下簡稱ICG)。滿足以下條件的游戲是ICG(可能不太嚴(yán)謹(jǐn)):1、有兩名選手;2、兩名選手交替對游戲進(jìn)行移動(move),每次一步,選手可以在(一般而言)有限的合法移動集合中任選一種進(jìn)行移動;3、對于游戲的任何一種可能的局面,合法的移動集合只取決于這個局面本身,不取決于輪到哪名選手操作、以前的任何操作、骰子的點(diǎn)數(shù)或者其它什么因素; 4、如果輪到某名選手移動,且這個局面的合法的移動集合為空(也就是說此時無法進(jìn)行移動),則這名選手負(fù)。根據(jù)這個定義,很多日常的游戲并非ICG。例如象棋就不滿足條件3,因?yàn)榧t方只能移動紅子,黑方只能移動黑子,合法的移動集合取決于輪到哪名選手操作。
通常的Nim游戲的定義是這樣的:有若干堆石子,每堆石子的數(shù)量都是有限的,合法的移動是“選擇一堆石子并拿走若干顆(不能不拿)”,如果輪到某個人時所有的石子堆都已經(jīng)被拿空了,則判負(fù)(因?yàn)樗丝虥]有任何合法的移動)。
這游戲看上去有點(diǎn)復(fù)雜,先從簡單情況開始研究吧。如果輪到你的時候,只剩下一堆石子,那么此時的必勝策略肯定是把這堆石子全部拿完一顆也不給對手剩,然后對手就輸了。如果剩下兩堆不相等的石子,必勝策略是通過取多的一堆的石子將兩堆石子變得相等,以后如果對手在某一堆里拿若干顆,你就可以在另一堆中拿同樣多的顆數(shù),直至勝利。如果你面對的是兩堆相等的石子,那么此時你是沒有任何必勝策略的,反而對手可以遵循上面的策略保證必勝。如果是三堆石子……好像已經(jīng)很難分析了,看來我們必須要借助一些其它好用的(最好是程式化的)分析方法了,或者說,我們最好能夠設(shè)計(jì)出一種在有必勝策略時就能找到必勝策略的算法。
定義P-position和N-position,其中P代表Previous,N代表Next。直觀的說,上一次move的人有必勝策略的局面是P- position,也就是“后手可保證必勝”或者“先手必敗”,現(xiàn)在輪到move的人有必勝策略的局面是N-position,也就是“先手可保證必勝”。更嚴(yán)謹(jǐn)?shù)亩x是:1.無法進(jìn)行任何移動的局面(也就是terminal position)是P-position;2.可以移動到P-position的局面是N-position;3.所有移動都導(dǎo)致N-position 的局面是P-position。
按照這個定義,如果局面不可能重現(xiàn),或者說positions的集合可以進(jìn)行拓?fù)渑判?#xff0c;那么每個position或者是P-position或者是N-position,而且可以通過定義計(jì)算出來。
以Nim游戲?yàn)槔齺磉M(jìn)行一下計(jì)算。比如說我剛才說當(dāng)只有兩堆石子且兩堆石子數(shù)量相等時后手有必勝策略,也就是這是一個P-position,下面我們依靠定義證明一下(3,3)是一個P-position。首先(3,3)的子局面(也就是通過合法移動可以導(dǎo)致的局面)有(0,3)(1,3)(2,3)(顯然交換石子堆的位置不影響其性質(zhì),所以把(x,y)和(y,x)看成同一種局面),只需要計(jì)算出這三種局面的性質(zhì)就可以了。 (0,3)的子局面有(0,0)、(0,1)、(0,2),其中(0,0)顯然是P-position,所以(0,3)是N-position(只要找到一個是P-position的子局面就能說明是N-position)。(1,3)的后繼中(1,1)是P-position(因?yàn)?1,1)的唯一子局面(0,1)是N-position),所以(1,3)也是N-position。同樣可以證明(2,3)是N-position。所以(3,3)的所有子局面都是N-position,它就是P-position。通過一點(diǎn)簡單的數(shù)學(xué)歸納,可以嚴(yán)格的證明“有兩堆石子時的局面是P-position當(dāng)且僅當(dāng)這兩堆石子的數(shù)目相等”。
根據(jù)上面這個過程,可以得到一個遞歸的算法——對于當(dāng)前的局面,遞歸計(jì)算它的所有子局面的性質(zhì),如果存在某個子局面是P-position,那么向這個子局面的移動就是必勝策略。當(dāng)然,可能你已經(jīng)敏銳地看出有大量的重疊子問題,所以可以用DP或者記憶化搜索的方法以提高效率。但問題是,利用這個算法,對于某個Nim游戲的局面(a1,a2,...,an)來說,要想判斷它的性質(zhì)以及找出必勝策略,需要計(jì)算O(a1*a2*...*an)個局面的性質(zhì),不管怎樣記憶化都無法降低這個時間復(fù)雜度。所以我們需要更高效的判斷Nim游戲的局面的性質(zhì)的方法。
直接說結(jié)論好了。(Bouton's Theorem)對于一個Nim游戲的局面(a1,a2,...,an),它是P-position當(dāng)且僅當(dāng)a1^a2^...^an=0,其中^表示異或(xor)運(yùn)算。怎么樣,是不是很神奇?我看到它的時候也覺得很神奇,完全沒有道理的和異或運(yùn)算扯上了關(guān)系。但這個定理的證明卻也不復(fù)雜,基本上就是按照兩種position的證明來的。
根據(jù)定義,證明一種判斷position的性質(zhì)的方法的正確性,只需證明三個命題: 1、這個判斷將所有terminal position判為P-position;2、根據(jù)這個判斷被判為N-position的局面一定可以移動到某個P-position;3、根據(jù)這個判斷被判為P-position的局面無法移動到某個P-position。
第一個命題顯然,terminal position只有一個,就是全0,異或仍然是0。
第二個命題,對于某個局面(a1,a2,...,an),若a1^a2^...^an!=0,一定存在某個合法的移動,將ai改變成ai'后滿足 a1^a2^...^ai'^...^an=0。不妨設(shè)a1^a2^...^an=k,則一定存在某個ai,它的二進(jìn)制表示在k的最高位上是1(否則k的最高位那個1是怎么得到的)。這時ai^k<ai一定成立。則我們可以將ai改變成ai'=ai^k,此時 a1^a2^...^ai'^...^an=a1^a2^...^an^k=0。
第三個命題,對于某個局面(a1,a2,...,an),若a1^a2^...^an=0,一定不存在某個合法的移動,將ai改變成ai'后滿足 a1^a2^...^ai'^...^an=0。因?yàn)楫惢蜻\(yùn)算滿足消去率,由a1^a2^...^an=a1^a2^...^ai'^...^an可以得到ai=ai'。所以將ai改變成ai'不是一個合法的移動。證畢。
根據(jù)這個定理,我們可以在O(n)的時間內(nèi)判斷一個Nim的局面的性質(zhì),且如果它是N-position,也可以在O(n)的時間內(nèi)找到所有的必勝策略。Nim問題就這樣基本上完美的解決了。
在下一節(jié)“Sprague-Grundy函數(shù)”中,我們將面對更多與Nim游戲有關(guān)的變種,還會看到Nim游戲的a1^a2^...^an這個值更廣泛的意義。敬請期待。
上一期的文章里我們仔細(xì)研究了Nim游戲,并且了解了找出必勝策略的方法。但如果把Nim的規(guī)則略加改變,你還能很快找出必勝策略嗎?比如說:有n堆石子,每次可以從第1堆石子里取1顆、2顆或3顆,可以從第2堆石子里取奇數(shù)顆,可以從第3堆及以后石子里取任意顆……這時看上去問題復(fù)雜了很多,但相信你如果掌握了本節(jié)的內(nèi)容,類似的千變?nèi)f化的問題都是不成問題的。
現(xiàn)在我們來研究一個看上去似乎更為一般的游戲:給定一個有向無環(huán)圖和一個起始頂點(diǎn)上的一枚棋子,兩名選手交替的將這枚棋子沿有向邊進(jìn)行移動,無法移動者判負(fù)。事實(shí)上,這個游戲可以認(rèn)為是所有Impartial Combinatorial Games的抽象模型。也就是說,任何一個ICG都可以通過把每個局面看成一個頂點(diǎn),對每個局面和它的子局面連一條有向邊來抽象成這個“有向圖游戲”。下面我們就在有向無環(huán)圖的頂點(diǎn)上定義Sprague-Garundy函數(shù)。
首先定義mex(minimal excludant)運(yùn)算,這是施加于一個集合的運(yùn)算,表示最小的不屬于這個集合的非負(fù)整數(shù)。例如mex{0,1,2,4}=3、mex{2,3,5}=0、mex{}=0。
對于一個給定的有向無環(huán)圖,定義關(guān)于圖的每個頂點(diǎn)的Sprague-Garundy函數(shù)g如下:g(x)=mex{ g(y) | y是x的后繼 }。
來看一下SG函數(shù)的性質(zhì)。首先,所有的terminal position所對應(yīng)的頂點(diǎn),也就是沒有出邊的頂點(diǎn),其SG值為0,因?yàn)樗暮罄^集合是空集。然后對于一個g(x)=0的頂點(diǎn)x,它的所有后繼y都滿足 g(y)!=0。對于一個g(x)!=0的頂點(diǎn),必定存在一個后繼y滿足g(y)=0。
以上這三句話表明,頂點(diǎn)x所代表的postion是P-position當(dāng)且僅當(dāng)g(x)=0(跟P-positioin/N-position的定義的那三句話是完全對應(yīng)的)。我們通過計(jì)算有向無環(huán)圖的每個頂點(diǎn)的SG值,就可以對每種局面找到必勝策略了。但SG函數(shù)的用途遠(yuǎn)沒有這樣簡單。如果將有向圖游戲變復(fù)雜一點(diǎn),比如說,有向圖上并不是只有一枚棋子,而是有n枚棋子,每次可以任選一顆進(jìn)行移動,這時,怎樣找到必勝策略呢?
讓我們再來考慮一下頂點(diǎn)的SG值的意義。當(dāng)g(x)=k時,表明對于任意一個0<=i<k,都存在x的一個后繼y滿足g(y)=i。也就是說,當(dāng)某枚棋子的SG值是k時,我們可以把它變成0、變成1、……、變成k-1,但絕對不能保持k不變。不知道你能不能根據(jù)這個聯(lián)想到Nim游戲,Nim 游戲的規(guī)則就是:每次選擇一堆數(shù)量為k的石子,可以把它變成0、變成1、……、變成k-1,但絕對不能保持k不變。這表明,如果將n枚棋子所在的頂點(diǎn)的 SG值看作n堆相應(yīng)數(shù)量的石子,那么這個Nim游戲的每個必勝策略都對應(yīng)于原來這n枚棋子的必勝策略!
對于n個棋子,設(shè)它們對應(yīng)的頂點(diǎn)的SG值分別為(a1,a2,...,an),再設(shè)局面(a1,a2,...,an)時的Nim游戲的一種必勝策略是把 ai變成k,那么原游戲的一種必勝策略就是把第i枚棋子移動到一個SG值為k的頂點(diǎn)。這聽上去有點(diǎn)過于神奇——怎么繞了一圈又回到Nim游戲上了。
其實(shí)我們還是只要證明這種多棋子的有向圖游戲的局面是P-position當(dāng)且僅當(dāng)所有棋子所在的位置的SG函數(shù)的異或?yàn)?。這個證明與上節(jié)的Bouton's Theorem幾乎是完全相同的,只需要適當(dāng)?shù)母膸讉€名詞就行了。
剛才,我為了使問題看上去更容易一些,認(rèn)為n枚棋子是在一個有向圖上移動。但如果不是在一個有向圖上,而是每個棋子在一個有向圖上,每次可以任選一個棋子(也就是任選一個有向圖)進(jìn)行移動,這樣也不會給結(jié)論帶來任何變化。
所以我們可以定義有向圖游戲的和(Sum of Graph Games):設(shè)G1、G2、……、Gn是n個有向圖游戲,定義游戲G是G1、G2、……、Gn的和(Sum),游戲G的移動規(guī)則是:任選一個子游戲Gi 并移動上面的棋子。Sprague-Grundy Theorem就是:g(G)=g(G1)^g(G2)^...^g(Gn)。也就是說,游戲的和的SG函數(shù)值是它的所有子游戲的SG函數(shù)值的異或。
再考慮在本文一開頭的一句話:任何一個ICG都可以抽象成一個有向圖游戲。所以“SG函數(shù)”和“游戲的和”的概念就不是局限于有向圖游戲。我們給每個 ICG的每個position定義SG值,也可以定義n個ICG的和。所以說當(dāng)我們面對由n個游戲組合成的一個游戲時,只需對于每個游戲找出求它的每個局面的SG值的方法,就可以把這些SG值全部看成Nim的石子堆,然后依照找Nim的必勝策略的方法來找這個游戲的必勝策略了!
回到本文開頭的問題。有n堆石子,每次可以從第1堆石子里取1顆、2顆或3顆,可以從第2堆石子里取奇數(shù)顆,可以從第3堆及以后石子里取任意顆……我們可以把它看作3個子游戲,第1個子游戲只有一堆石子,每次可以取1、2、3顆,很容易看出x顆石子的局面的SG值是x%4。第2個子游戲也是只有一堆石子,每次可以取奇數(shù)顆,經(jīng)過簡單的畫圖可以知道這個游戲有x顆石子時的SG值是x%2。第3個游戲有n-2堆石子,就是一個Nim游戲。對于原游戲的每個局面,把三個子游戲的SG值異或一下就得到了整個游戲的SG值,然后就可以根據(jù)這個SG值判斷是否有必勝策略以及做出決策了。其實(shí)看作3個子游戲還是保守了些,干脆看作n個子游戲,其中第1、2個子游戲如上所述,第3個及以后的子游戲都是“1堆石子,每次取幾顆都可以”,稱為“任取石子游戲”,這個超簡單的游戲有x顆石子的SG值顯然就是x。其實(shí),n堆石子的Nim游戲本身不就是n個“任取石子游戲”的和嗎?
所以,對于我們來說,SG函數(shù)與“游戲的和”的概念不是讓我們?nèi)ソM合、制造稀奇古怪的游戲,而是把遇到的看上去有些復(fù)雜的游戲試圖分成若干個子游戲,對于每個比原游戲簡化很多的子游戲找出它的SG函數(shù),然后全部異或起來就得到了原游戲的SG函數(shù),就可以解決原游戲了。
轉(zhuǎn)載于:https://www.cnblogs.com/Mathics/p/3947947.html
總結(jié)
以上是生活随笔為你收集整理的(转)博弈问题与SG函数的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 计数排序之python 实现源码
- 下一篇: 实现类似微博、QQ空间等的动态加载