增强学习(Reinforcement Learning and Control)
另外如要設(shè)計(jì)一個(gè)下象棋的AI,每走一步實(shí)際上也是一個(gè)決策過(guò)程,雖然對(duì)于簡(jiǎn)單的棋有A*的啟發(fā)式方法,但在局勢(shì)復(fù)雜時(shí),仍然要讓機(jī)器向后面多考慮幾步后才能決定走哪一步比較好,因此需要更好的決策方法。
對(duì)于這種控制決策問(wèn)題,有這么一種解決思路。我們?cè)O(shè)計(jì)一個(gè)回報(bào)函數(shù)(reward function),如果learning agent(如上面的四足機(jī)器人、象棋AI程序)在決定一步后,獲得了較好的結(jié)果,那么我們給agent一些回報(bào)(比如回報(bào)函數(shù)結(jié)果為正),得到較差的結(jié)果,那么回報(bào)函數(shù)為負(fù)。比如,四足機(jī)器人,如果他向前走了一步(接近目標(biāo)),那么回報(bào)函數(shù)為正,后退為負(fù)。如果我們能夠?qū)γ恳徊竭M(jìn)行評(píng)價(jià),得到相應(yīng)的回報(bào)函數(shù),那么就好辦了,我們只需要找到一條回報(bào)值最大的路徑(每步的回報(bào)之和最大),就認(rèn)為是最佳的路徑。
增強(qiáng)學(xué)習(xí)在很多領(lǐng)域已經(jīng)獲得成功應(yīng)用,比如自動(dòng)直升機(jī),機(jī)器人控制,手機(jī)網(wǎng)絡(luò)路由,市場(chǎng)決策,工業(yè)控制,高效網(wǎng)頁(yè)索引等。
接下來(lái),先介紹一下馬爾科夫決策過(guò)程(MDP,Markov decision processes)。
總結(jié)
以上是生活随笔為你收集整理的增强学习(Reinforcement Learning and Control)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 偏最小二乘法回归(Partial Lea
- 下一篇: ICA扩展描述