演化博弈论基本概念
文章目錄
- 混合策略
- 符號
- 混合策略的空間幾何
- 策略組合的表示
- 混合策略收益函數
- 最優反應
- 最佳反應集合
混合策略
符號
標準博弈可以寫成:G=(I,S,π)G=(I,S,\pi)G=(I,S,π)
博弈方集合: I=(1,2,3...,n)I=(1,2,3...,n)I=(1,2,3...,n),n為博弈方數目
有限純策略集合: Si={1,2,...,mi}S_i= \{1,2,...,m_i\}Si?={1,2,...,mi?},mim_imi?為博弈方能夠采取的策略數目
純策略空間:S=XiSi,XiS=X_iS_i,X_iS=Xi?Si?,Xi?表示卡特爾積
對卡特爾積舉個栗子
兩個人進行剪刀石頭布的游戲
I=2,Si={剪刀,石頭,布},I=2,S_i=\{剪刀,石頭,布\},I=2,Si?={剪刀,石頭,布},
S={(剪刀,剪刀),(剪刀,石頭),(剪刀,布),(石頭,石頭),(石頭,剪刀),(石頭,布),(布,布),(布,剪刀),(布,石頭)}S=\{(剪刀,剪刀),(剪刀,石頭),(剪刀,布),(石頭,石頭),(石頭,剪刀),(石頭,布),(布,布),(布,剪刀),(布,石頭)\}S={(剪刀,剪刀),(剪刀,石頭),(剪刀,布),(石頭,石頭),(石頭,剪刀),(石頭,布),(布,布),(布,剪刀),(布,石頭)}
對于任何策略組合S,博弈方I的收益可以記為πi(s)\pi_i(s)πi?(s),πi(s)\pi_i(s)πi?(s)應該也可以寫成πi:S→R\pi_i:S\rightarrow Rπi?:S→R
πi:S→R\pi_i:S\rightarrow Rπi?:S→R為集值映射,意思為S中的每個策略,都可以對應成R中的每一個子集。
混合策略的空間幾何
xix_ixi?的支集(或承載形):C(xi)={h∈Si:xih>0}C(x_i)=\{h\in S_i:x_{ih}>0\}C(xi?)={h∈Si?:xih?>0}
即為某混合策略xix_ixi?賦予正概率的純策略的集合
比如:策略集={剪刀,石頭,布},混合策略xi=(1/2,1/2,0)x_i=(1/2,1/2,0)xi?=(1/2,1/2,0)
則C(xi)={剪刀,石頭}C(x_i)=\{剪刀,石頭\}C(xi?)={剪刀,石頭}
單純形Δi={xi∈R+mi:Σh=1mixih=1}\Delta_i=\{x_i \in R_+^{m_i}:\Sigma_{h=1}^{m_i}x_{ih}=1\}Δi?={xi?∈R+mi??:Σh=1mi??xih?=1}
Δi\Delta_iΔi?的頂點為mim_imi?維空間的單位向量(表示某個純策略)
混合策略單純形Δi\Delta_iΔi?是所有頂點的凸包。
每個混合策略xix_ixi?是純策略eihe_i^heih?的凸組合。
凸集,凸組合,凸包,仿射組合:
凸包:S為歐式空間RnR^nRn的任意子集,包含S的最小凸集稱為S的凸包。
內部:int(Δi)={xi∈Δi:xih>0,?h}int (\Delta_i)=\{x_i\in \Delta_i:x_{ih}>0,\forall h\}int(Δi?)={xi?∈Δi?:xih?>0,?h}
外部:bd(Δi)={xi∈Δi:xi?int(Δi)}bd(\Delta_i)=\{x_i\in \Delta_i:x_i\notin int(\Delta_i)\}bd(Δi?)={xi?∈Δi?:xi?∈/int(Δi?)}
其中,xix_ixi?為某個混合策略,h∈Sih\in S_ih∈Si?即為第幾個策略。
混合策略空間 Θ=Xi∈IΔi\Theta=X_{i\in I}\Delta_iΘ=Xi∈I?Δi?(單純形是某個博弈方的策略集合,策略空間是每個博弈方策略的笛卡爾積)
intΘ=Xi∈Iint(Δi)int\Theta=X_{i\in I} int(\Delta_i)intΘ=Xi∈I?int(Δi?)
當且僅當C(x)=S(任意xihx_{ih}xih?均大于0),對于x∈Θ:x∈int(Θ)x\in \Theta:x\in int(\Theta)x∈Θ:x∈int(Θ)的支集,記為C(x)=Xi∈IC(Xi)?SC(x)=X_{i\in I}C(X_i)\subset SC(x)=Xi∈I?C(Xi?)?S
- 如果子集X?ΘX\subset \ThetaX?Θ是各博弈方的笛卡爾積,那么X稱為Θ\ThetaΘ的面,特別的,X=ΘX=\ThetaX=Θ是Θ\ThetaΘ的一個面,而且是最大的一個面
- 每一個純策略組合,可以視為Θ\ThetaΘ的一個單點子集,是一個邊界面
- Θ\ThetaΘ的邊界面的并等同于集合bd(Θ)bd(\Theta)bd(Θ)
策略組合的表示
博弈方i采取策略xi∈Δix_i\in \Delta_ixi?∈Δi?,其他所有博弈方j按照策略組合y∈Θy\in\Thetay∈Θ 來行動,將此策略表示為:z=(xi,y?i)z=(x_i,y_{-i})z=(xi?,y?i?)
混合策略收益函數
某個純策略s被采用的概率就是每個博弈方的混合策略賦予他純策略的概率之積
x(s)=∏i=1nxisix(s)=\prod_{i=1}^nx_{is_i}x(s)=∏i=1n?xisi??
比如:
A=[1245]A= \left [ \begin{matrix} 1 & 2 \\ 4 & 5 \end{matrix} \right ] A=[14?25?]
行博弈方策略xi=(1/3,2/3)x_i=(1/3,2/3)xi?=(1/3,2/3),列博弈方策略yi=(1/2,1/2)y_i=(1/2,1/2)yi?=(1/2,1/2)
則S={1,2}被采用的概率為1/61/61/6
混合策略組合帶給博弈方的期望收益值為
ui(x)=Σs∈Sx(s)πi(s)u_i(x)=\Sigma_{s\in S}x(s)\pi_i(s)ui?(x)=Σs∈S?x(s)πi?(s)
若將博弈方j運用第k個純策略時博弈方i的收益記作ui(ejk,x?j)u_i(e_j^k,x_{-j})ui?(ejk?,x?j?)
對任何的x?Θx\subset\Thetax?Θ和i,j∈Ii,j \in Ii,j∈I,ui(x)=Σk=imiui(ejk,x?j)xjku_i(x)=\Sigma_{k=i}^{m_i}u_i(e_j^k,x_{-j})x_{jk}ui?(x)=Σk=imi??ui?(ejk?,x?j?)xjk?
對任何的混合策略對x1∈Δ1,x2∈Δ2x_1 \in \Delta_1,x_2 \in \Delta_2x1?∈Δ1?,x2?∈Δ2?
有u1(x)=Σh=1m1Σh=2m2x1hahkx2k=x1Ax2u_1(x)=\Sigma_{h=1}^{m_1}\Sigma_{h=2}^{m_2}x_{1h}a_{hk}x_{2k}=x_1Ax_2u1?(x)=Σh=1m1??Σh=2m2??x1h?ahk?x2k?=x1?Ax2?
u2(x)=Σh=1m1Σh=2m2x1hbhkx2k=x1Bx2=x2BTx1u_2(x)=\Sigma_{h=1}^{m_1}\Sigma_{h=2}^{m_2}x_{1h}b_{hk}x_{2k}=x_1Bx_2=x_2B^Tx_1u2?(x)=Σh=1m1??Σh=2m2??x1h?bhk?x2k?=x1?Bx2?=x2?BTx1?
最優反應
最佳反應集合
最優反應βi(y)\beta_i(y)βi?(y)是針對博弈方i的采取某個策略y收益最高的反應集合,β(y)\beta(y)β(y)則是將不同博弈方的策略進行笛卡爾積,因此說,最優反應是將策略組合映射至策略組合的集合;
最佳反應集合β?(y)\beta^*(y)β?(y)則是將策略映射到策略集。
集值映射參考文章
https://zhuanlan.zhihu.com/p/187596916
總結
- 上一篇: 微信H5框架:WEUI
- 下一篇: [react] 需要把keys设置为全局