Autonomous Reinforcement Learning via Subgoal Curricula 论文笔记
題目:基于子目標(biāo)課程的自主強(qiáng)化學(xué)習(xí)
Abstract 無
1 Introduction
強(qiáng)化學(xué)習(xí)為交互式智能體自主獲取復(fù)雜行為提供了很好的契機(jī),但當(dāng)前強(qiáng)化學(xué)習(xí)算法的自主性仍面臨挑戰(zhàn),尤其是在機(jī)器人領(lǐng)域:假設(shè)每次試驗(yàn)都從環(huán)境中特定狀態(tài)分布的初始狀態(tài)開始。
傳統(tǒng)地,強(qiáng)化學(xué)習(xí)算法假設(shè)能夠任意采樣并重置為從該分布中提取的狀態(tài),這使得此類算法對(duì)于大多數(shù)實(shí)際設(shè)置都不切實(shí)際。
許多以前在真實(shí)機(jī)器人上進(jìn)行強(qiáng)化學(xué)習(xí)的例子都依賴于機(jī)器人設(shè)置和人類監(jiān)督的儀器,以使環(huán)境重置為該初始狀態(tài)分布。額外的環(huán)境檢測(cè)和創(chuàng)建腳本化行為都需要大量的時(shí)間,并且通常需要額外的資源,腳本重置行為在應(yīng)用程序中范圍很窄,通常只針對(duì)單個(gè)任務(wù)或環(huán)境設(shè)計(jì),其脆弱性要求人類監(jiān)督學(xué)習(xí)過程。
消除或最小化對(duì)重置機(jī)制的算法依賴可以實(shí)現(xiàn)更多的自主學(xué)習(xí),反過來,它將允許代理擴(kuò)展到更廣泛和更難的任務(wù)集。現(xiàn)在已有算法最小化依賴。
總結(jié)工作:我們提供了一個(gè)正式的問題定義,該定義封裝并闡明了這些先前方法所解決的一般設(shè)置,我們?cè)谶@項(xiàng)工作中稱之為持續(xù)強(qiáng)化學(xué)習(xí)persistent reinforcement learning。
在問題設(shè)置中,我們將訓(xùn)練與測(cè)試時(shí)間設(shè)置分開,以便測(cè)試時(shí)間目標(biāo)與傳統(tǒng)RL設(shè)置相匹配,但訓(xùn)練時(shí)間設(shè)置通過提供低頻周期性重置來限制對(duì)初始狀態(tài)分布的訪問。 在這種設(shè)置中,agent在人類干預(yù)最少的情況下持續(xù)學(xué)習(xí)并與環(huán)境交互。在這種設(shè)置下,傳統(tǒng)RL無法完全解決任務(wù)。這是因?yàn)檫@些方法依賴于任意采樣初始狀態(tài)分布的能力。這個(gè)問題的一個(gè)解決方法是:另外學(xué)習(xí)一個(gè)重置策略,該策略恢復(fù)初始狀態(tài)分布,允許代理在練習(xí)任務(wù)和練習(xí)反向之間反復(fù)交替。然而,從探索的角度來看,直接從初始狀態(tài)分布解決任務(wù)不僅很困難,而且(試圖)反復(fù)返回初始狀態(tài)可能效率低下。在本文中,我們建議讓代理重置自己,并嘗試從不同的初始狀態(tài)沿路徑到目標(biāo)狀態(tài)執(zhí)行任務(wù)。特別是,代理可以學(xué)習(xí)從更接近目標(biāo)的更容易的開始狀態(tài)解決任務(wù),并在此基礎(chǔ)上進(jìn)行引導(dǎo),以從距離目標(biāo)更遠(yuǎn)的更難的狀態(tài)解決任務(wù)。
本文的主要貢獻(xiàn):
1.V alue-accelerated Persistent Reinforcement Learning (V aPRL),一種以目標(biāo)為條件的RL方法,為agent創(chuàng)建一個(gè)自適應(yīng)的起始狀態(tài)課程,以有效地提高測(cè)試時(shí)性能,同時(shí)大幅減少對(duì)外部重置機(jī)制的依賴。
2.還提供了持久RL問題設(shè)置的正式描述,以概念化我們的工作和先前的方法。
persistent R &&&& persistent RL:
2 Related Work
Robot learning:之前使用強(qiáng)化學(xué)習(xí)的工作依賴于手動(dòng)設(shè)計(jì)控制器或人工監(jiān)督,以實(shí)現(xiàn)當(dāng)前算法要求的 episodic environmental resets。這可以通過人工協(xié)調(diào)重置,這需要在機(jī)器人訓(xùn)練中進(jìn)行高頻率的人工干預(yù),在某些情況下,可以執(zhí)行腳本行為來重置環(huán)境。
//什么是腳本化行為?時(shí)間密集型?
Reset-free reinforcement learning自由重置強(qiáng)化學(xué)習(xí):無
Curriculum generation for reinforcement learning強(qiáng)化學(xué)習(xí)課程生成:提出新的課程生成方法,為持續(xù)強(qiáng)化學(xué)習(xí)設(shè)計(jì)該方法,而不需要像以前的工作那樣將環(huán)境重置為任意狀態(tài)。
Persistent vs. lifelong reinforcement learning持續(xù)強(qiáng)化學(xué)習(xí)與終身強(qiáng)化學(xué)習(xí):持續(xù)RL和終身學(xué)習(xí)框架都超越了the episodic setting for training,促進(jìn)了強(qiáng)化學(xué)習(xí)的更多自主性。
持續(xù)強(qiáng)化學(xué)習(xí)區(qū)分 training 和 evaluation 的目標(biāo), evaluation objective和episodic reinforcement learning的相匹配。While the assumptions of episodic reinforcement learning are hard to realize for real-world training, real-world deployment of policies is often episodic. 這通常適用于機(jī)器人技術(shù),在機(jī)器人技術(shù)中,分配的任務(wù)預(yù)計(jì)是重復(fù)的,但很難在培訓(xùn)環(huán)境中協(xié)調(diào)重置。這使得持續(xù)強(qiáng)化學(xué)習(xí)成為機(jī)器人學(xué)習(xí)任務(wù)建模的合適框架。
3 Persistent Reinforcement Learning 持續(xù)強(qiáng)化學(xué)習(xí)
本節(jié)將持續(xù)強(qiáng)化學(xué)習(xí)形式化為一個(gè)優(yōu)化問題,關(guān)鍵在于將評(píng)估和訓(xùn)練目標(biāo)分開,用訓(xùn)練目標(biāo)使我們獲得行為(同時(shí)認(rèn)識(shí)到頻繁調(diào)用重置機(jī)制是站不住腳的),評(píng)估目標(biāo)衡量期望的這些行為的性能。我們首先提供一個(gè)通用的公式,然后將持續(xù)強(qiáng)化學(xué)習(xí)調(diào)整為目標(biāo)條件設(shè)置。
Definition:定義一個(gè)MDP,目標(biāo)時(shí)找使最大的策略,
however,效果不好,又定義了一個(gè)MDP訓(xùn)練環(huán)境,
前后向控制器:在解決與r對(duì)應(yīng)的任務(wù)和恢復(fù)初始狀態(tài)分布ρ之間交替進(jìn)行,該方法對(duì)應(yīng)的獎(jiǎng)勵(lì)函數(shù):
,這里在步驟的任務(wù)獎(jiǎng)勵(lì)r和rp之間交替,這種代理獎(jiǎng)勵(lì)功能允許代理重復(fù)練習(xí)任務(wù)。對(duì)于一般的依賴時(shí)間的替代獎(jiǎng)勵(lì)函數(shù)。
持續(xù)強(qiáng)化學(xué)習(xí)的目標(biāo)是在的約束下最大化,目標(biāo)鼓勵(lì)構(gòu)建一個(gè)能夠恢復(fù)評(píng)估環(huán)境最佳策略的訓(xùn)練環(huán)境。在這項(xiàng)工作中,我們將把自己限制在可逆環(huán)境中,并將對(duì)具有不可逆狀態(tài)的環(huán)境的持續(xù)RL的全面討論推遲到將來的工作中。
Goal-conditioned persistent reinforcement learning. 目標(biāo)制約的持續(xù)強(qiáng)化學(xué)習(xí)
目標(biāo)制約的MDP:,加入了
評(píng)價(jià)目標(biāo):
訓(xùn)練目標(biāo):
4 Value-Accelerated Persistent Reinforcement Learning價(jià)值加速的
為了解決目標(biāo)制約下持續(xù)強(qiáng)化學(xué)習(xí),提出了我們的算法VaPRL,關(guān)鍵思想是:The key idea in VaPRL is that the agent does not need to return to the initial state distribution between every attempt at the task.and can instead choose to practice from states that facilitate efficient learning.
智能體不必要在任務(wù)中的每次嘗試中返回到初始狀態(tài)分布,相反地,可以選擇在有利于學(xué)習(xí)的狀態(tài)進(jìn)行訓(xùn)練。
4.1 Generating a Curriculum Using the Value Function 使用價(jià)值函數(shù)生成課程
如何實(shí)現(xiàn)目標(biāo)g:從狀態(tài)s開始學(xué)習(xí)如何到達(dá)目標(biāo)g更容易接近于g,尤其是當(dāng)獎(jiǎng)勵(lì)很少時(shí)。知道如何從一個(gè)狀態(tài)s到達(dá)目標(biāo)g,反過來,可以更容易地從s附近的狀態(tài)到達(dá)g,使我們?cè)诖嘶A(chǔ)上逐步遠(yuǎn)離g。在一個(gè)更容易的問題成功解決一個(gè)更難的問題的基礎(chǔ)上,引出課程學(xué)習(xí):旨在定義一門越來越難的課程,一遍策略最終能從初始狀態(tài)分布ρ開始到達(dá)目標(biāo)g。我們的方案是對(duì)任務(wù)目標(biāo)g進(jìn)行抽樣,以子目標(biāo)運(yùn)行策略,再以任務(wù)目標(biāo)運(yùn)行策略。主要問題:如何選擇子目標(biāo)來嘗試目標(biāo)? 設(shè)立子目標(biāo)如下:
值函數(shù)的意義:到達(dá)g的概率。
通過對(duì)值函數(shù)的理解,回看上述方程,子目標(biāo)選擇最接近初始狀態(tài)分布的狀態(tài)
/對(duì)于該初始狀態(tài)分布,值函數(shù)Vπ(s,g)穿過閾值?。這鼓勵(lì)課程在培訓(xùn)的早期階段更接近目標(biāo)狀態(tài),因?yàn)樵撜咴趯?shí)現(xiàn)目標(biāo)方面效果不佳。隨著政策的改進(jìn),更多的州滿足了約束條件,課程逐漸接近初始州分布。最終,課程收斂到初始狀態(tài)分布,從而形成一個(gè)政策π,該政策π將優(yōu)化MDP ME中的評(píng)估目標(biāo)。/
得出目標(biāo)生成器:
Computing the Curriculum Generator C(g).
狀態(tài)空間最小化:我們使用策略π在訓(xùn)練期間收集的數(shù)據(jù),并通過枚舉將隨機(jī)抽樣子集上的C(g)最小化。
Measuring the Initial State Distribution Distance.測(cè)量初始狀態(tài)分布距離
4.2 Relabeling Goals
目標(biāo)重新標(biāo)記vsHER
Algorithm Summary.算法摘要
不想看了不想看了
總結(jié)
以上是生活随笔為你收集整理的Autonomous Reinforcement Learning via Subgoal Curricula 论文笔记的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 《游戏人工智能编程案例精粹》笔记 (一)
- 下一篇: 《Linux系统调用:gmtime,mk