强化学习(一)——专业术语及OpenAI Gym介绍
生活随笔
收集整理的這篇文章主要介紹了
强化学习(一)——专业术语及OpenAI Gym介绍
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
強化學習(一)——專業術語及OpenAI Gym介紹
- 1. 專業術語
- 1.1 Agent(智能體)
- 1.2 Environment(環境)
- 1.3 State *s*(狀態)
- 1.4 Action *a*(動作)
- 1.5 Reward *r*(獎勵)
- 1.6 Policy *π*(策略函數)
- 1.7 State transition *p*(*s*’ |*s*, *a*)(狀態轉移函數)
- 1.8 Return *U*(回報)
- 1.8 Action-value function(動作價值函數)
- 1.9 Optimal action-value function(最優動作價值函數)
- 1.10 State-value function(狀態價值函數)
- 2. OpenAI Gym
- 2.1 安裝
- 2.2 簡單使用
1. 專業術語
1.1 Agent(智能體)
強化學習的控制對象。
1.2 Environment(環境)
與智能體交互的對象。
1.3 State s(狀態)
智能體所處狀態。
1.4 Action a(動作)
智能體所能執行的操作。
1.5 Reward r(獎勵)
智能體執行動作后獲得獎勵。
1.6 Policy π(策略函數)
動作的抽樣函數。
1.7 State transition p(s’ |s, a)(狀態轉移函數)
Agent執行動作后獲得的新狀態。
1.8 Return U(回報)
未來的累計折扣獎勵:Ut=Rt+γRt+1+γ2Rt+2+???U_t = R_t+\gamma R_{t+1}+ \gamma ^2R_{t+2} + ··· Ut?=Rt?+γRt+1?+γ2Rt+2?+???
1.8 Action-value function(動作價值函數)
Qπ(st,at)=E[Ut∣at,st]Q_π(s_t,a_t)=E[U_t|a_t,s_t] Qπ?(st?,at?)=E[Ut?∣at?,st?]
1.9 Optimal action-value function(最優動作價值函數)
Qπ?(st,at)=max?πQπ(st,at)Q_π^*(s_t,a_t)=\displaystyle\max_{π}Q_π(s_t,a_t) Qπ??(st?,at?)=πmax?Qπ?(st?,at?)
1.10 State-value function(狀態價值函數)
Vπ(st)=EA[Qπ(st,A)]V_π(s_t)=E_A[Q_π(s_t,A)] Vπ?(st?)=EA?[Qπ?(st?,A)]
2. OpenAI Gym
2.1 安裝
conda create -n gym python=3.6.0 pip install gym matplotlib -i https://pypi.tuna.tsinghua.edu.cn/simple2.2 簡單使用
import gym import timeenv = gym.make("CartPole-v0")state = env.reset()for epoch in range(100):env.render()time.sleep(1)action = env.action_space.sample()state,reward,done,info = env.step(action)if done:print("Finish!")break env.close()本文為參考B站學習視頻書寫的筆記!
by CyrusMay 2022 03 28
青春是挽不回的水
轉眼消失在指尖
——————五月天(瘋狂世界)——————
總結
以上是生活随笔為你收集整理的强化学习(一)——专业术语及OpenAI Gym介绍的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 爬虫篇——selenium(webdri
- 下一篇: 强化学习(二)—— 价值学习(Value