mdp框架_强化学习:MDP(Markov Decision Process)
0.強化學習(reinforcement learning),特點是引入獎勵機制。【強化學習屬于機器學習框架中的什么部分?】
1.引出MDP的思路
=>Random variable
=>Stchastic Process
=>Markov chain/Process
=>Markov Reward Process
=>Markov Decision Process
2.隨機變量(Random variable)
強化學習是引入了概率的一種算法,隨機變量是研究對象,比如隨機變量S1。
【隨機變量常用大寫字母表示,隨機變量的具體取值常用小寫字母表示,P(S=s)表示變量S取s值的概率】
關于隨機變量有幾個問題需要回答:
這個隨機變量是服從于哪種概率分布?
這個概率分布對應的概率密度函數什么?
這個隨機變量是離散分布還是連續分布?
是一維隨機變量還是多維隨機變量?
不同的隨機變量之間是什么關系?
以下針對這幾個問題嘗試進行回答。
概率分布(prob dist)是指用于表述隨機變量取值的概率規律。隨機變量的概率分布指的是隨機變量的可能取值及取得對應值的概率。
概率分布有幾種類型,最常見的是高斯分布(即正態分布)【此外還有0-1分布等等】。若隨機變量X服從于期望為u,協方差為Σ的高斯分布,則寫作X~N(u,Σ)
每種分布對應的有一個概率密度函數(probability density function:PDF),高斯分布的概率密度函數如下:
其中,u是期望,σ2是協方差。【均值和方差是X為一維變量時期望和協方差的描述方式】。
隨機變量離散分布含義是X的取值是離散的。隨機變量連續分布含義是X的取值是連續的。
X={x1,x2,x3,...}是一組由一維隨機變量組成的集合;
Y={y1,y2,y3,...}是一組由高維隨機變量組成的集合;
期望和方差/協方差都是表示一組變量的數字特征。
X和Y期望和方差/協方差公式如下:
不同的隨機變量之間的關系,可以根據不同模型的假設進行分析。比如Naive Bayes中,假設在Y被觀測的前提下,x1,x2...xN之間兩兩條件獨立。比如在HMM中就有觀測獨立假設和一階齊次Markov假設。觀測獨立假設中X(t+1)只和Z(t+1)有關(也就是在Z(t+1)被觀測的情況下,X(t+1)與其他隨機變量條件獨立)。一階齊次Markov假設中Z(t+1)只和Z(t)有關(也就是說在Z(t)被觀測的情況下,Z(t+1)與其他隨機變量條件獨立)。HMM中的Markov假設是”一階“齊次Markov假設,如果是”二階“Markov假設的話,Z(t+1)只和Z(t),Z(t-1)有關(也就是說在Z(t),Z(t-1)被觀測的情況下,Z(t+1)與其他隨機變量條件獨立)。
3.隨機過程(Stchastic Process)
變量之間關系復雜,沒有明顯的可循規律。
4.馬爾可夫鏈/馬爾可夫過程(Markov chain/Process)
馬爾可夫過程(Markov chain)是一個具有Markov性質的特殊的隨機過程(stochastic process)。
一階馬爾可夫假設:已知st的情況下,st+1與s1,s2...st-1均無關。(即st+1只與st有關)。
5.馬爾科夫獎勵過程(Markov Reward Process)
其中 St是t時刻的狀態變量,Rt+1是對應t時刻的Reward。
6.馬爾可夫決策過程(Markov Decision Process)
其中 St是t時刻的狀態變量,At是Action,Rt+1是對應t時刻的Reward。
問題:如何與隱馬爾可夫結合?
隱馬爾可夫是為了對概率進行分布求解,從而引入隱變量的概念,將s1作為隱變量,x1作為觀測變量。
參考資料:
1.https://www.bilibili.com/video/BV1RA411q7wt?from=search&seid=4107546504069376636,作者:shuhuai008
總結
以上是生活随笔為你收集整理的mdp框架_强化学习:MDP(Markov Decision Process)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 二元函数泰勒公式例题_高等数学入门——二
- 下一篇: 论文笔记之:Deep Attention