博弈论 斯坦福game theory stanford week 5.0_
title: 博弈論 斯坦福game theory stanford week 5-0
tags: note
notebook: 6- 英文課程-15-game theory
---
博弈論 斯坦福game theory stanford week 5-0
repeated Games 重復游戲
在實際的博弈中,很多的情況不止一次的發生,下面有很多的例子:
- 市場中的公司中的博弈
- 政治的博弈
- 朋友間的交換
- 工人們的相互競爭合作
我們討論一個案例,那就是opec
他們的油價其實是一個很有趣的博弈:
- 1930年的油價是20,他們相互的競爭
- 1950年,他們開始合作,減少石油的產量,然后油價就開始上升
- 1982 變成來 90元
- 2002年,他們的合作漸漸的減少,油價也開始了下降
他們在這個過程中使用了合作行為。cartel,卡特爾是一種像囚徒困境的一種困局
- 這樣的合作需要密切的觀察自己的朋友,并且快速的懲罰不合作的博弈者
- 并且需要大多數的博弈者有長遠的打算
- 戰爭并不能達到更大的利益
要衡量這些合作的最終的結果,我們使用一次一側的進行博弈的方式。
infinitely repeated games: utility 無限重復的游戲,效益
我們要定義游戲的效益。
我們是不是能夠把這種情況用拓展形式表現出來呢?
我們這樣的博弈是一個無止境的博弈,我們是不是可以這樣表示呢?
不過這種無限的形式寫出來,我們基本上是無法計算博弈的結果的,因此我們上面學習的表達方式并沒有幫助。
因為無限的序列讓我們沒有辦法計算收益,我們可以將我們的收益寫成極限形式,就像上面的公式。
那么我們的收入就會變成了平均收入或者穩定收入。
第二個定義是有關未來的利益的未來的尚未計算的收益,
這個收益描述了一種長期的收益,是有關未來的收益預期,他的計算方法是通過一個因此乘上未來的收益,然后求和。
比如我進行投資的時候,可能會先投入大量的前期投入,然后再逐漸的盈利,但是這樣做的人有很多,他們主要考慮的就是未來的收入可以非常完美的覆蓋現在的付出。
但是未來的收入會有一個貶值因子,因為這里的收入不是立刻馬上兌現的,因此我們不能把他們當成100%的金錢看待。
stochastic games 隨機博弈
如果我們不借用之前同步博弈的想法,我們說隨機博弈是一種重復比賽的概念
在這種博弈中:
- 博弈者隨機的從所有的行為集合中選擇
- 博弈的進行取決于所有熱的之前的選擇和之后的選擇。
下面有一個示圖來討論這個問題。
再重復博弈中,我們的圖形只能被博弈者的行為影響,一次又一次的旋轉。但是再隨機的博弈中,博弈者可以去選擇其他的游戲,而不只是拘泥于單一的游戲中。
這是博弈的完整的定義。
我們,定義了
- 狀態集Q
- 博弈者集N
- 行為集合A
- 轉移概率函數P(q,a,q'),描述一個行為a下從一個狀態q轉移到另一個狀態q'的概率。
- 真實收益函數R,描述博弈者的真實收益。
為了簡化問題,我們常常假設策略空間再所有的游戲中都向圖
可以形成馬爾科夫簡單代理隨機博弈。
重復游戲中的學習
我們會學習到學習的兩種形式,在重復游戲中的兩種形式。
- fictitious play 虛構游戲
- No-regret learning 無悔學習
不過大體上,在博弈論中的學習是一個比較火熱的領域,我們有很多的知識沒有接觸。
虛構游戲
從納什均衡開始學習
每一個博弈者explicit對其他的博弈者的行為有一個明確的信念。
他們開始的信念是一種敵對的信念。
在每一回合后,每個博弈者都會評估其他人的策略。
觀察對手的行為和結果。
下面我們進行剛剛說的策略的形式化的表述。
使用如下的公式:
我們舉個例子來說,比如說猜硬幣游戲,他的博弈的圖表是這樣的:
| T | 3 ,-3 | -2,2 |
| H | -2,2 | 1,-1 |
那么我們可以假設情況是這樣的
在這樣的情況下,均衡的情況是會出現的,而且在這種請款下,最終會達到納什均衡。
無悔學習
首先我們要定義什么是后悔
后悔的定義是這樣的,
轉載于:https://www.cnblogs.com/zangzelin/p/8595690.html
總結
以上是生活随笔為你收集整理的博弈论 斯坦福game theory stanford week 5.0_的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2017-2018网络攻防第二周
- 下一篇: 数据结构之数组定义及基本操作(转)