强化学习(八)价值函数的近似表示与Deep Q-Learning
在強化學習系列的前七篇里,我們主要討論的都是規模比較小的強化學習問題求解算法。今天開始我們步入深度強化學習。這一篇關注于價值函數的近似表示和Deep Q-Learning算法。
Deep Q-Learning這一篇對應Sutton書的第11章部分和UCL強化學習課程的第六講。
1. 為何需要價值函數的近似表示
在之前講到了強化學習求解方法,無論是動態規劃DP,蒙特卡羅方法MC,還是時序差分TD,使用的狀態都是離散的有限個狀態集合SS。此時問題的規模比較小,比較容易求解。但是假如我們遇到復雜的狀態集合呢?甚至很多時候,狀態是連續的,那么就算離散化后,集合也很大,此時我們的傳統方法,比如Q-Learning,根本無法在內存中維護這么大的一張Q表。
比如經典的冰球世界(PuckWorld) 強化學習問題,具體的動態demo見這里。環境由一個正方形區域構成代表著冰球場地,場地內大的圓代表著運動員個體,小圓代表著目標冰球。在這個正方形環境中,小圓會每隔一定的時間隨機改變在場地的位置,而代表個體的大圓的任務就是盡可能快的接近冰球目標。大圓可以操作的行為是在水平和豎直共四個方向上施加一個時間步時長的一個大小固定的力,借此來改變大圓的速度。環境會在每一個時間步內告訴個體當前的水平與垂直坐標、當前的速度在水平和垂直方向上的分量以及目標的水平和垂直坐標共6項數據,獎勵值為個體與目標兩者中心距離的負數,也就是距離越大獎勵值越低且最高獎勵值為0。
在這個問題中,狀態是一個6維的向
《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀總結
以上是生活随笔為你收集整理的强化学习(八)价值函数的近似表示与Deep Q-Learning的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 强化学习(六)时序差分在线控制算法SAR
- 下一篇: 强化学习(九)Deep Q-Learni