强化学习1-思想及分类
生活随笔
收集整理的這篇文章主要介紹了
强化学习1-思想及分类
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
強化學習: 通過式6迭代出最優解。其中,加號前面部分表示更新前值函數,后面部分表示更新后值函數,以α(學習效率)比值融合更新值函數。r(s,a,s')為當前狀態采取動作a之后變成新的狀態的獎勵reward,γ為新狀態值函數的衰減值。 式7為TD算法,式子意義為當前值函數+學習率*誤差(更新后值函數-當前值函數) 式11/12為Q-learning算法,在TD算法的基礎上采用狀態、動作對的表現形式。和TD算法都是模型無關的,因此收斂速度慢。 式13為sarsa算法,sarsa算法與Q-learning不同的是,sarsa使用(St, At, St+1, Rt+1)表示模型 Dyna-Q也是model-based,但與sarsa不同的是,Dyna-Q建立更新單獨的模型M,其具體的算法步驟為:
分類:
局部學習:更多系統無法感知系統,只能感知部分,根據貝葉斯定律更新概率(狀態和動作不確定) 函數估計:采用參數化函數替代策略查找表 多agent 學習:每個agent通過與其他agent交互加快學習過程,每個agent擁有獨立的學習機制。分為合作性多agent強化學習、競爭性多agent強化學習、半競爭型多agent強化學習。競爭型就像兩個對手,他們的值函數互為相反的。需要機制判斷是否采用競爭型強化學習。 規則抽取:將強化學習技術所得到的策略,通過規則抽取,轉化成其他學習技術所能夠處理的表示形式。從而可以利用其他技術進行更深層次的學習和推理;同時在環境發生改變是可以將抽取的規則用于強化學習中,提高新一次學習的收斂速度。 強化學習偏差:通過加入先驗知識,加快強化學習收斂速度。 分層學習:減少強化學習的維數災難(策略查找表增大到電腦無法處理)
分類:
- 強化學習分為順序學習(馬爾可夫:當前狀態向下一狀態轉移的概率和獎賞值只取決于當前狀態選擇的動作,與歷史狀態和歷史動作無關)和非順序學習,順序學習可以用動態規劃算法求取最優解。
- 強化學習還分為基于模型的和model-free:基于模型的算法不僅優化策略,還在訓練過程中理解真實世界模型,具有更快的收斂速度。
- 強化學習側重點不同分為經驗強化型學習和最優搜索型學習。經驗強化型學習算法充分利用已獲得的經驗知識,最優搜索型則嘗試更多知識。因此經驗強化型算法收斂更快,但是得到的往往不是最優解,而是局部最優解。
- 強化學習的內容有:
總結
以上是生活随笔為你收集整理的强化学习1-思想及分类的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【大数据 / linux 系统 / KE
- 下一篇: 原来我是个自由主义者