如何判断强化学习训练是否在收敛?
生活随笔
收集整理的這篇文章主要介紹了
如何判断强化学习训练是否在收敛?
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
參考鏈接:
1、信息熵 – 針對于策略問題
如果信息熵逐漸降低,表明策略越來越確定,趨于平緩
2、loss指標 – 評價網絡收斂的好壞
雖然不能直觀的說明策略的好壞,但是loss可以看出網絡模型的學習程度。
趨于平緩,訓練的差不多了,不代表策略最優
3、reward
reward大多數是對于狀態之間轉移的即時獎勵,和整個決策規劃的好壞不能直接等價。
在訓練過程中,DRL策略在一個episode下的平均獎賞沒有明顯變化時,可以視為DRL訓練近似收斂。
- dense reward:也可以換成使用平均reward來表示。
- sparse reward:使用reward指標很難看出來,因為有很大一部分時候reward都是趨于0 的。
4、其他
- 結合了具體場景的一些指標,如游戲中agent的血量、存活率等,采用一些可以進行評價的指標
- 有些場景下設置了學習了隨訓練輪次逐漸減少的trick,也會影響一些收斂判斷。
總結
以上是生活随笔為你收集整理的如何判断强化学习训练是否在收敛?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Pytorch学习 - Task5 Py
- 下一篇: 二分法细节学习-mid