强化学习笔记5:learningplanning, explorationexploitation
1 learning & planning
Learning 和 Planning 是序列決策的兩個基本問題。
在強化學習中,環(huán)境初始時是未知的,agent 不知道環(huán)境如何工作,agent 通過不斷地與環(huán)境交互,逐漸改進策略。(learning過程)
?在 plannning 中,環(huán)境是已知的,我們被告知了整個環(huán)境的運作規(guī)則的詳細信息。
Agent 能夠計算出一個完美的模型,并且在不需要與環(huán)境進行任何交互的時候進行計算。
Agent 不需要實時地與環(huán)境交互就能知道未來環(huán)境,只需要知道當前的狀態(tài),就能夠開始思考,來尋找最優(yōu)解。
?在上圖這個游戲中,規(guī)則是制定的,我們知道選擇 left或者right 之后環(huán)境將會產(chǎn)生什么變化。我們完全可以通過已知的變化規(guī)則,來在內(nèi)部進行模擬整個決策過程,無需與環(huán)境交互。
一個常用的強化學習問題解決思路是,先學習環(huán)境如何工作,也就是了解環(huán)境工作的方式,即學習得到一個模型,然后利用這個模型進行規(guī)劃。
2 exploration& exploitation
在強化學習里面,探索exploration?和利用exploitation?也是兩個很核心的問題。
-
探索exploration是說我們怎么去探索這個環(huán)境,通過嘗試不同的行為來得到一個最佳的策略,得到最大獎勵的策略。
-
利用exploitation是說我們不去嘗試新的東西,就采取已知的可以得到很大獎勵的行為。
因為在剛開始的時候強化學習 agent 不知道它采取了某個行為會發(fā)生什么,所以它只能通過試錯去探索。
所以探索exploration就是通過試錯來理解采取的這個行為到底可不可以得到好的獎勵。
利用exploitation是說我們直接采取已知的可以得到很好獎勵的行為。
這里就面臨一個權衡,怎么通過犧牲一些短期的獎勵來獲得行為的理解,從而學習到更好的策略。
2.1 探索和利用的例子:
| 餐館 |
|
| 做廣告 |
|
| 挖油 |
|
| 玩游戲 |
|
3 K-armed Bandit
與監(jiān)督學習不同,強化學習任務的最終獎賞是在多步動作之后才能觀察到。
這里我們不妨先考慮比較簡單的情形:最大化單步獎賞,即僅考慮一步操作。
需注意的是,即便在這樣的簡化情形下,強化學習仍與監(jiān)督學習有顯著不同,因為機器需通過嘗試來發(fā)現(xiàn)各個動作產(chǎn)生的結果,而沒有訓練數(shù)據(jù)告訴機器應當做哪個動作。
想要最大化單步獎賞需考慮兩個方面:一是需知道每個動作帶來的獎賞,二是要執(zhí)行獎賞最大的動作。
若每個動作對應的獎賞是一個確定值,那么嘗試遍所有的動作便能找出獎賞最大的動作。然而,更一般的情形是,一個動作的獎賞值是來自于一個概率分布,僅通過一次嘗試并不能確切地獲得平均獎賞值。
實際上,單步強化學習任務對應了一個理論模型,即 K-臂賭博機(K-armed bandit)。
K-臂賭博機也被稱為?多臂賭博機(Multi-armed bandit) 。如上圖所示,K-搖臂賭博機有 K 個搖臂,賭徒在投入一個硬幣后可選擇按下其中一個搖臂,每個搖臂以一定的概率吐出硬幣,但這個概率賭徒并不知道。賭徒的目標是通過一定的策略最大化自己的獎賞,即獲得最多的硬幣。
-
若賭徒僅為獲知每個搖臂的期望獎賞,則可采用僅探索(exploration-only)法:將所有的嘗試機會平均分配給每個搖臂(即輪流按下每個搖臂),最后以每個搖臂各自的平均吐幣概率作為其獎賞期望的近似估計。
-
若賭徒僅為執(zhí)行獎賞最大的動作,則可采用僅利用(exploitation-only)法:按下目前最優(yōu)的(即到目前為止平均獎賞最大的)搖臂,若有多個搖臂同為最優(yōu),則從中隨機選取一個。
顯然,僅探索法能很好地估計每個搖臂的獎賞,卻會失去很多選擇最優(yōu)搖臂的機會;僅利用法則相反,它沒有很好地估計搖臂期望獎賞,很可能經(jīng)常選不到最優(yōu)搖臂。
因此,這兩種方法都難以使最終的累積獎賞最大化。
事實上,探索(即估計搖臂的優(yōu)劣)和利用(即選擇當前最優(yōu)搖臂)這兩者是矛盾的,因為嘗試次數(shù)(即總投幣數(shù))有限,加強了一方則會自然削弱另一方,這就是強化學習所面臨的探索-利用窘境(Exploration-Exploitation dilemma)。
顯然,想要累積獎賞最大,則必須在探索與利用之間達成較好的折中。
參考文獻:第一章 強化學習概述 (datawhalechina.github.io)
總結
以上是生活随笔為你收集整理的强化学习笔记5:learningplanning, explorationexploitation的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 强化学习笔记2:序列决策(Sequent
- 下一篇: 强化学习目录