當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

强化学习笔记2：序列决策(Sequential Decision Making)过程

發布時間：2025/4/5 编程问答 18 豆豆

生活随笔收集整理的這篇文章主要介紹了强化学习笔记2：序列决策(Sequential Decision Making)过程小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1?Agent and Environment

????????強化學習研究的問題是 agent 跟環境交互，上圖左邊畫的是一個 agent，agent 一直在跟環境進行交互。

????????這個 agent 把它輸出的動作給環境，環境取得這個動作過后，會進行到下一步，然后會把下一步的觀測跟它上一步是否得到獎勵返還給 agent。

????????通過這樣的交互過程會產生很多觀測，agent 的目的是從這些觀測之中學到能極大化獎勵的策略。

2??Reward

????????獎勵是由環境給的一個標量反饋信號(scalar feedback signal)，這個信號顯示了 agent 在某一步采取了某個策略的表現如何。

????????強化學習的目的就是為了最大化 agent 可以獲得的獎勵，agent 在這個環境里面存在的目的就是為了極大化它的期望的累積獎勵(expected cumulative reward)。

3?Sequential Decision Making

????????在一個強化學習環境里面，agent 的目的就是選取一系列的動作來極大化它的獎勵，所以這些采取的動作必須有長期的影響。

????????但在這個過程里面，它的獎勵其實是被延遲了，就是說你現在采取的某一步決策可能要等到時間很久過后才知道這一步到底產生了什么樣的影響。

????????這里一個示意圖，就是我們玩這個 Atari 的 Pong 游戲，你可能只有到最后游戲結束過后，才知道這個球到底有沒有擊打過去。中間你采取的 up 或 down 行為，并不會直接產生獎勵。

????????強化學習里面一個重要的課題就是近期獎勵和遠期獎勵的一個權衡(trade-off)。怎么讓 agent 取得更多的長期獎勵是強化學習的問題。

?????????在跟環境的交互過程中，agent 會獲得很多觀測。在每一個觀測會采取一個動作，它也會得到一個獎勵。所以歷史是觀測(observation)、行為（action）、獎勵（reward）的序列：

????????????????????????????????

????????Agent 在采取當前動作的時候會依賴于它之前得到的這個歷史，所以你可以把整個游戲的狀態看成關于這個歷史的函數：

?????????????????????????????????????????????????????????

?3.1 狀態和觀測的區別

??狀態(state)?s?是對世界的完整描述，不會隱藏世界的信息。

??觀測(observation)?o是對狀態的部分描述，可能會遺漏一些信息。

3.1.1完全可觀測

舉個例子，圍棋就是完全可觀測

觀測到的東西，就是環境的狀態，同時也是agent的狀態

?3.1.2 部分可觀測

但是有一種情況是，agent 得到的觀測并不能包含環境運作的所有狀態（比如打牌，打麻將，我們只知道自己的牌型，不知道別人的），因為在這個強化學習的設定里面，環境environment的狀態才是真正的所有狀態。

比如 agent 在玩這個 black jack 這個游戲，它能看到的其實是牌面上的牌。
或者在玩雅達利游戲的時候，觀測到的只是當前電視上面這一幀的信息，你并沒有得到游戲內部里面所有的運作狀態。

? ? ? 也就是說此時?agent 只能看到部分的觀測，我們就稱這個環境是部分可觀測的(partially observed)。在這種情況下面，強化學習通常被建模成一個 POMDP （部分可觀測馬爾可夫決策過程）的問題。

3.1.3 部分可觀測馬爾科夫問題

??部分可觀測馬爾可夫決策過程(Partially Observable Markov Decision Processes, POMDP)是一個馬爾可夫決策過程的泛化。

? ? ? ? ?POMDP 依然具有馬爾可夫性質，但是假設智能體無法感知環境的狀態?s，只能知道部分觀測值?。比如在自動駕駛中，智能體只能感知傳感器采集的有限的環境信息。

?4 決策空間

????????不同的環境允許不同種類的動作。在給定的環境中，有效動作的集合經常被稱為動作空間(action space)。

????????像 Atari 和 Go 這樣的環境有離散動作空間(discrete action spaces)，在這個動作空間里，agent 的動作數量是有限的。

????????在其他環境，比如在物理世界中控制一個 agent，在這個環境中就有連續動作空間(continuous action spaces)?。在連續空間中，動作是實值的向量。

例如：

走迷宮機器人如果只有東南西北這 4 種移動方式，則其為離散動作空間；
如果機器人向?中的任意角度都可以移動，則為連續動作空間。

總結

以上是生活随笔為你收集整理的强化学习笔记2：序列决策(Sequential Decision Making)过程的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：强化学习笔记1：强化学习概述
下一篇：强化学习笔记5：learningplan