當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

强化学习Reinforcement Learning

發布時間：2025/4/5 编程问答 19 豆豆

生活随笔收集整理的這篇文章主要介紹了强化学习Reinforcement Learning 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Abstract

背景

強化學習算法概念

背景

(1) 強化學習的歷史發展

1956年Bellman提出了動態規劃方法。
1977年Werbos提出只適應動態規劃算法。
1988年sutton提出時間差分算法。
1992年Watkins 提出Q-learning 算法。
1994年rummery 提出Saras算法。
1996年Bersekas提出解決隨機過程中優化控制的神經動態規劃方法。
2006年Kocsis提出了置信上限樹算法。
2009年kewis提出反饋控制只適應動態規劃算法。
2014年silver提出確定性策略梯度（Policy Gradents）算法。
2015年Google-deepmind 提出Deep-Q-Network算法。

(2) 強化學習概念起源

強化學習是機器學習中的一個領域，強調如何基于環境而行動，以取得最大化的預期利益。其靈感來源于心理學中的行為主義理論，即有機體如何在環境給予的獎勵或懲罰的刺激下，逐步形成對刺激的預期，產生能獲得最大利益的習慣性行為。

這個方法具有普適性，因此在其他許多領域都有研究，例如博弈論、控制論、運籌學、信息論、仿真優化、多主體系統學習、群體智能、統計學以及遺傳算法。在運籌學和控制理論研究的語境下，強化學習被稱作“近似動態規劃”（approximate dynamic programming，ADP）。在最優控制理論中也有研究這個問題，雖然大部分的研究是關于最優解的存在和特性，并非是學習或者近似方面。在經濟學和博弈論中，強化學習被用來解釋在有限理性的條件下如何出現平衡。

(3) 強化學習與監督學習、非監督學習區別

Supervised learning：是從一個已經標記的訓練集中進行學習，訓練集中每一個樣本特征可以視為是對該situation的描述，而其label可以視為是應該執行的正確的action，但是有監督的學習不能學習交互的情景，因為在交互的問題中獲得期望行為的樣例是非常不實際的，agent只能從自己的經歷（experience）中進行學習，而experience中采取的行為并一定是最優的。這時利用RL就非常合適，因為RL不是利用正確的行為來指導，而是利用已有的訓練信息來對行為進行評價。
Unsupervised learning：因為RL利用的并不是采取正確行動的experience，從這一點來看和無監督的學習確實有點像，但是還是不一樣的，無監督的學習的目的可以說是從一堆未標記樣本中發現隱藏的結構(通過數據之間的關聯性將數據分類)，而RL的目的是最大化reward signal。
Reinforcement learning：強化學習的目標是使得回報reward最大化maximize。強化學習和非監督學習的關鍵部分就是回報的選擇。強化學習是學習狀態和行為之間的映射關系，agent必須通過不斷嘗試才能發現采取哪種行為能夠產生最大回報。

總的來說，RL與其他機器學習算法不同的地方在于：其中沒有監督者，只有一個reward信號；反饋是延遲的，不是立即生成的；時間在RL中具有重要的意義；agent的行為會影響之后一系列的data。

reference:

https://blog.csdn.net/qq_20499063/article/details/78762596

強化學習算法

在標準RL框架[10]中，agent在許多時間步長上與外部環境進行交互。在此，s是所有可能狀態的集合，而a是所有可能動作的集合。在每個時間步t，處于狀態st的代理從環境中感知觀察信息Ot，采取行動并從獎勵源Rt接收反饋。然后，代理轉換到新狀態st + 1，并確定與該轉換關聯的獎勵Rt + 1（st，at，st + 1）。代理可以從上次訪問的狀態中選擇一個動作。強化學習代理的目標是以最小的延遲收集最大可能的回報。

reference:

Leslie Pack Kaelbling, Michael L Littman, and Andrew W Moore. Reinforcement learning: A survey.?Journal of artificial intelligence research, 4:237–285, 1996.

《新程序員》：云原生和全面數字化實踐50位技術專家共同創作，文字、視頻、音頻交互閱讀

總結

以上是生活随笔為你收集整理的强化学习Reinforcement Learning的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：深度学习～循环神经网络RNN, LSTM
下一篇： count followers