增强学习(一) ----- 基本概念
機器學習算法大致可以分為三種:
1. 監督學習(如回歸,分類)
2. 非監督學習(如聚類,降維)
3. 增強學習
什么是增強學習呢?
增強學習(reinforcementlearning, RL)又叫做強化學習,是近年來機器學習和智能控制領域的主要方法之一。
定義: Reinforcement learning is learning what to do ----how to map situations to actions ---- so as to maximize a numerical reward signal.[1]
也就是說增強學習關注的是智能體如何在環境中采取一系列行為,從而獲得最大的累積回報。
通過增強學習,一個智能體應該知道在什么狀態下應該采取什么行為。RL是從環境狀態到動作的映射的學習,我們把這個映射稱為策略。
那么增強學習具體解決哪些問題呢,我們來舉一些例子:
例1. flappy bird 是現在很流行的一款小游戲,不了解的同學可以點鏈接進去玩一會兒?,F在我們讓小鳥自行進行游戲,但是我們卻沒有小鳥的動力學模型,也不打算了解它的動力學。要怎么做呢? 這時就可以給它設計一個增強學習算法,然后讓小鳥不斷的進行游戲,如果小鳥撞到柱子了,那就獲得-1的回報,否則獲得0回報。通過這樣的若干次訓練,我們最終可以得到一只飛行技能高超的小鳥,它知道在什么情況下采取什么動作來躲避柱子。
例2. 假設我們要構建一個下國際象棋的機器,這種情況不能使用監督學習
總結
以上是生活随笔為你收集整理的增强学习(一) ----- 基本概念的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 增强学习(二)----- 马尔可夫决策过
- 下一篇: 快手火爆背后的算法逻辑分析