针对安全探索的受限强化学习:原始对偶优化算法
?作者 | 周宣含
學校 | 國防科技大學
研究方向 | 深度強化學習
在強化學習中,智能體通過在未知環(huán)境中探索與試錯來學習如何決策。大多數(shù) RL 算法允許智能體自由地探索環(huán)境,并采取任意能夠提升獎勵的動作,然而,能夠獲得較高獎勵的動作同時也可能會帶來較大風險。而在一些實際場景中,確保智能體的安全至關(guān)重要。
不同于標準 RL 只需要最大化獎勵函數(shù),此時智能體所采取的行為必須能夠避免危險的情況,因此設計者需要合理地設計獎勵函數(shù),通過不同的權(quán)重系數(shù)(獎勵因子與懲罰因子)在最大化獎勵以及減少危險代價之間取得平衡。這其中存在著兩個問題:
1)需要滿足的約束條件與正確的權(quán)重參數(shù)之間不存在給定的映射關(guān)系,如果懲罰因子選取得過小,智能體可能會學習到危險的行為,相反,如果懲罰因子選取得過大,智能體可能無法學習到任何東西;2)對于給定的權(quán)重系數(shù),即使能夠讓智能體最終學習到滿足約束的最優(yōu)策略,也依然無法保證智能體在整個訓練過程中都能滿足約束。
一種確保智能體安全性的方法是在標準馬爾科夫框架中增加約束條件,把問題轉(zhuǎn)變成受限馬爾科夫決策過程(constraint Markov Decision Process,CMDP),此時智能體的目標是在滿足 long-term 代價約束的條件下最大化 long-term 獎勵。這種方法能夠同時解決上述的兩個問題。
當前求解 CMDP 的算法主要包含兩大類:原始對偶優(yōu)化(primal-dual optimization,PDO)算法與受限策略優(yōu)化(constraint policy optimization,CPO)算法。其中,PDO 算法以拉格朗日松弛(Lagrangian relaxation)技術(shù)為基礎,輪流更新原始域參數(shù)與對偶域參數(shù)。具體來說,原始策略參數(shù)利用策略梯度上升的方法進行更新,而對偶域的參數(shù)則采用對偶梯度上升的方法進行更新。
CPO 與 PPO 的區(qū)別在于對偶域的更新方式,在 CPO 中,每一次迭代都會通過求解一個精心設計的優(yōu)化問題來直接求解對偶參數(shù),這樣確保了訓練過程中約束條件也能夠得到滿足,CPO 是 TRPO 在 CMDP 中的擴展。open AI?在對于? safety ?RL 的 benchmark 中提到,CPO 的實際效果不如 PDO,并且 CPO 的算法框架基于 TRPO 算法,而 PDO 可以應用在各種標準 RL 算法中,因此這里只介紹 PDO 算法。
Constraint RL
1.1 受限馬爾科夫決策過程(CMDP)
CDMP 在 MDP 的基礎上增加了對于長遠折扣代價(long-term discounted costs)的約束。具體來說,假設總共有 個代價函數(shù) ,其中每個代價函數(shù) 表示狀態(tài)-動作對到代價之間的映射關(guān)系。類似于獎勵收益,策略 下的長遠折扣代價收益被定義為
對應的約束門限值為 。CMDP 的目標是在滿足長遠代價收益 的情況下最大化獎勵收益 ,即
除此之外,約束條件還有多種形式,例如機會約束 ,風險條件價值約束(constraints on the conditional value at risk,與最壞情況結(jié)果的一小部分相比的預期代價總和),每個狀態(tài)的獨立約束 。實際上,在 Sutton 的書中提到過,所有的目標與目的都可以用獎勵函數(shù)來表示,因此通過合理設計代價函數(shù)所能表示出來的約束條件種類是十分廣泛的。
另外,Constraint RL 與 multi-objective RL 十分相近,但是兩者有著一定的區(qū)別,在 constraint RL 中,當約束條件得到滿足時,通常存在一個飽和點(saturation point),當?shù)竭_該點時,繼續(xù)減少代價函數(shù)的值就不再具有任何意義,這個點對應的代價函數(shù)的值也就是約束條件的門限值,這個門限值在 multi-objective RL 中不存在類似的定義。
1.2 原始對偶優(yōu)化(primal-dual optimization)
為了求解 CMDP,可以采用拉格朗日松弛技術(shù),具體來說,上述 CMDP 問題的拉格朗日函數(shù)為
其中 是拉格朗日因子。原帶約束的優(yōu)化問題可以轉(zhuǎn)換為如下不帶約束的優(yōu)化問題:
為了求解這個不含約束的 minmax 問題,標準的方法是采用迭代原始-對偶方法,即在每一次迭代中輪流更新原始策略 與對偶變量 。在第 次迭代中的原始-對偶更新過程如下:
固定 ,執(zhí)行策略梯度上升:,其中 表示更新步長。這里的策略梯度既可以是 on-policy 的似然比策略梯度(REINFORCE 與 TRPO等),也可以是 off-policy 的確定性策略梯度(例如 DDPG)。
固定 ,執(zhí)行對偶更新:。CMDP 中不同方法的區(qū)別就在于對偶更新函數(shù) 的選擇。例如,PDO 采用簡單的對偶梯度上升 ,其中 是步長, 是對于對偶空間 的投影。相反,CPO 通過在每一次迭代中構(gòu)建新的優(yōu)化問題來求解對偶變量 ,進一步加強了約束。
實際算法舉例
2.1 Primal-Dual DDPG for CMDPs
這里提供 DDPG 算法的原始-對偶優(yōu)化版本用于求解 CMDP,該算法中的原始策略更新與對偶變量更新均利用經(jīng)驗回訪池中的 off-policy 數(shù)據(jù)樣本。為了方便描述,假設此時 CMDP中只存在 1 個約束,多個約束的情況也可以輕易地擴展得到。在原始-對偶 DDPG 算法中,存在以下幾個神經(jīng)網(wǎng)絡:
Reward critic Q-network 以及 reward target critic Q-network ;
Cost critic critic Q-network 以及 cost target critic Q-network ;
Actor policy network 以及 actor target policy network ;
具體算法如下:
可以看出,這里的算法與標準 DDPG 的算法區(qū)別在于:
1. 多了 1 個用于表征長遠折扣代價的神經(jīng)網(wǎng)絡;
2. 需對對偶域的拉格朗日因子即懲罰因子進行梯度上升。
類似的,PDO 還可以應用在 TRPO、PPO、TD3、SAC 等算法上。
2.2 存在的問題
在實驗中我發(fā)現(xiàn)這種方法存在一定的問題,在實際場景中我們的約束條件是有一定物理意義的,例如一段時間內(nèi)機器人的能量消耗必須小于一定的閾值,保證機器人的正常運作,這里的閾值是根據(jù)無折扣的代價之和求得的,但是在上面的算法流程中,利用了一個神經(jīng)網(wǎng)絡去擬合代價對應的 Q 值,這里的 Q 值對應的是有折扣的代價收益,與獎勵對應的收益類似,因此這里的代價 Q 值和我們實際中的代價之和是有區(qū)別的。在 open AI 提供的實驗中,代價比較簡單,通常為 1,此時 open AI 的代碼在假設每個 step 都有代價,且均為 1 的情況下,利用有折扣代價之和與無折扣代價之和之間的等式關(guān)系:
將實際無折扣代價之和得到的門限值轉(zhuǎn)換成了有折扣代價之和得到的門限值:
這種方法基于每個時刻均有代價,且代價值固定的假設,在實際場景中,代價值和獎勵值一樣,可能存在各種各樣的取值,并且不是每個 step 都會存在,所以這種等式變換是十分不精確的,并不適合實際場景。因此,在我個人的實驗中,并沒有采用神經(jīng)網(wǎng)絡對代價對應的收益進行擬合,而是直接采用 on-policy 的數(shù)據(jù)計算一個 episode 的代價之和做為代價收益,然后利用這個值對拉格朗日因子進行梯度更新。
參考文獻
[1] A. Ray, J. Achiam, and D. Amodei, ‘Benchmarking Safe Exploration in Deep Reinforcement Learning’, p. 25.
[2] Q. Liang, F. Que, and E. Modiano, ‘Accelerated Primal-Dual Policy Optimization for Safe Reinforcement Learning’,?arXiv:1802.06480 [cs, stat], Feb. 2018, Accessed: Apr. 14, 2021. [Online]. Available:?arxiv.org/abs/1802.0648
[3]J. Achiam, D. Held, A. Tamar, and P. Abbeel, ‘Constrained Policy Optimization’,?arXiv:1705.10528 [cs], May 2017, Accessed: Apr. 17, 2021. [Online]. Available:?arxiv.org/abs/1705.1052
[4]Y. Chow, M. Ghavamzadeh, L. Janson, and M. Pavone, ‘Risk-Constrained Reinforcement Learning with Percentile Risk Criteria’,?arXiv:1512.01629 [cs, math], Apr. 2017, Accessed: Apr. 17, 2021. [Online]. Available:?arxiv.org/abs/1512.0162
特別鳴謝
感謝 TCCI 天橋腦科學研究院對于 PaperWeekly 的支持。TCCI 關(guān)注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學術(shù)熱點剖析、科研心得或競賽經(jīng)驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝?稿件基本要求:
? 文章確系個人原創(chuàng)作品,未曾在公開渠道發(fā)表,如為其他平臺已發(fā)表或待發(fā)表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發(fā)送,要求圖片清晰,無版權(quán)問題
? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競爭力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯(lián)系方式(微信),以便我們在稿件選用的第一時間聯(lián)系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
🔍
現(xiàn)在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關(guān)注」訂閱我們的專欄吧
·
總結(jié)
以上是生活随笔為你收集整理的针对安全探索的受限强化学习:原始对偶优化算法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 据调查95%以上的AI从业者不具备修改模
- 下一篇: 老铺人家花园店玫瑰花中放的东西怎么吃?