强化学习Reinforcement Learning
Abstract
Abstract
背景
強化學習算法概念
背景
(1) 強化學習的歷史發展
1956年Bellman提出了動態規劃方法。
1977年Werbos提出只適應動態規劃算法。
1988年sutton提出時間差分算法。
1992年Watkins 提出Q-learning 算法。
1994年rummery 提出Saras算法。
1996年Bersekas提出解決隨機過程中優化控制的神經動態規劃方法。
2006年Kocsis提出了置信上限樹算法。
2009年kewis提出反饋控制只適應動態規劃算法。
2014年silver提出確定性策略梯度(Policy Gradents)算法。
2015年Google-deepmind 提出Deep-Q-Network算法。
(2) 強化學習概念起源
強化學習是機器學習中的一個領域,強調如何基于環境而行動,以取得最大化的預期利益。其靈感來源于心理學中的行為主義理論,即有機體如何在環境給予的獎勵或懲罰的刺激下,逐步形成對刺激的預期,產生能獲得最大利益的習慣性行為。
這個方法具有普適性,因此在其他許多領域都有研究,例如博弈論、控制論、運籌學、信息論、仿真優化、多主體系統學習、群體智能、統計學以及遺傳算法。在運籌學和控制理論研究的語境下,強化學習被稱作“近似動態規劃”(approximate dynamic programming,ADP)。在最優控制理論中也有研究這個問題,雖然大部分的研究是關于最優解的存在和特性,并非是學習或者近似方面。在經濟學和博弈論中,強化學習被用來解釋在有限理性的條件下如何出現平衡。
(3) 強化學習與監督學習、非監督學習區別
- Supervised learning:是從一個已經標記的訓練集中進行學習,訓練集中每一個樣本特征可以視為是對該situation的描述,而其label可以視為是應該執行的正確的action,但是有監督的學習不能學習交互的情景,因為在交互的問題中獲得期望行為的樣例是非常不實際的,agent只能從自己的經歷(experience)中進行學習,而experience中采取的行為并一定是最優的。這時利用RL就非常合適,因為RL不是利用正確的行為來指導,而是利用已有的訓練信息來對行為進行評價。
- Unsupervised learning:因為RL利用的并不是采取正確行動的experience,從這一點來看和無監督的學習確實有點像,但是還是不一樣的,無監督的學習的目的可以說是從一堆未標記樣本中發現隱藏的結構(通過數據之間的關聯性將數據分類),而RL的目的是最大化reward signal。
- Reinforcement learning:強化學習的目標是使得回報reward最大化maximize。強化學習和非監督學習的關鍵部分就是回報的選擇。強化學習是學習狀態和行為之間的映射關系,agent必須通過不斷嘗試才能發現采取哪種行為能夠產生最大回報。
總的來說,RL與其他機器學習算法不同的地方在于:其中沒有監督者,只有一個reward信號;反饋是延遲的,不是立即生成的;時間在RL中具有重要的意義;agent的行為會影響之后一系列的data。
reference:
https://blog.csdn.net/qq_20499063/article/details/78762596
https://blog.csdn.net/qq_20499063/article/details/78762596
強化學習算法
在標準RL框架[10]中,agent在許多時間步長上與外部環境進行交互。 在此,s是所有可能狀態的集合,而a是所有可能動作的集合。 在每個時間步t,處于狀態st的代理從環境中感知觀察信息Ot,采取行動并從獎勵源Rt接收反饋。 然后,代理轉換到新狀態st + 1,并確定與該轉換關聯的獎勵Rt + 1(st,at,st + 1)。 代理可以從上次訪問的狀態中選擇一個動作。 強化學習代理的目標是以最小的延遲收集最大可能的回報。
reference:
Leslie Pack Kaelbling, Michael L Littman, and Andrew W Moore. Reinforcement learning: A survey.?Journal of artificial intelligence research, 4:237–285, 1996.
?
?
?
?
?
《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀總結
以上是生活随笔為你收集整理的强化学习Reinforcement Learning的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 深度学习~循环神经网络RNN, LSTM
- 下一篇: count followers