运筹帷幄:围棋高手
強化學習
- 走棋網絡
- 監督學習策略網絡
- 強化學習基本概念
- 強化學習基本要素
- 強化學習目的
- 強化學習策略網絡
- 阿爾法狗的大局觀
- 估值網絡
- 快速走子網絡
- 蒙特卡羅樹搜索
- 整合
- 阿爾法元
- 阿爾法元的訓練
走棋網絡
監督學習策略網絡
通過監督學習的方式訓練一個策略網絡,模擬人類棋手的風格進行落子
問題:對·每個樣本都進行學習,但不是每個樣本都是好的落子方案。
阿爾法狗引入強化學習技術,通過自我對弈左右互搏來提升自身棋力
強化學習基本概念
強化學習相比監督學習而言,它所收到的反饋是評估性的(只告訴當前做法是好的還是壞的)而非指導性的(會告訴該做出什么行為來獲取更高的收益),所以學習者必須在多次嘗試后才能發現那些行為會得到更高的回報
強化學習基本要素
主體:負責作出決策的實體
環境:主體存在與環境中,其行為作用于環境,并接受環境的反饋
主體通過作用于環境后,環境的好壞就可以通過回報反饋給主體
強化學習目的
強化學習的目的就是找到一個最佳的策略,從而使得主體發出一系列的動作后,收到的累積回報最多
強化學習策略網絡
使用訓練好的監督學習策略網絡進行初始化,在通過不斷的自我對弈,以最終勝棋為目標,迭代網絡參數,從而改進策略來提高自己的獲勝概率
阿爾法狗的大局觀
引入股指網絡,用于增強阿爾法狗對當前局面價值的判斷,同時引入蒙特卡羅樹搜索算法推演當前局面的發展,幫助阿爾法狗找到更高的落子方案
估值網絡
估值網絡以棋盤當前局面作為輸入,并預測阿爾法狗在當前局面下的勝率
有了估值網絡后,阿爾法狗無需對弈到最后即可預測雙方勝率,這也使得阿爾法狗在有限的時間內可以推演當前局面更多的可能性,從而找到更好的落子方案。
快速走子網絡
為了加速棋局推演的速度,引入快速走子網絡(輕量級策略網絡,效果不及策略網絡,但速度遠高于策略網絡)在之后進行蒙特克羅樹搜索時可以快速模擬更多的未來落子可能性,從而幫助計算機更好地對檔期哪局面進行評估。
蒙特卡羅樹搜索
阿爾法對大局觀還是要從對當前局面的棋局推演中得到
蒙特卡羅樹搜索算法是一種通過隨機推演建立一棵搜索樹的啟發式搜索過程
搜索算法從當前給定局面開始推演棋局,分別隨機模擬雙方落子,若干次等到勝負后,將路徑上勝者所選擇的落子方案分數提高與此對應將敗者的落子方案分數降低,所以之后遇到相同局面時選擇勝者方案的概率就會增加。
整合
蒙特卡羅樹搜索算法推演棋局時融合各個模塊
阿爾法狗面對當前棋局局面時,需要通過蒙特卡羅樹搜索算法推演棋局的發展,即模擬對弈雙方進行各種各樣的落子試探。此時阿爾法狗在試探時每一步不在使用隨機算法選擇落子,而是根據在每個位置落子的預期收益來選擇落子。此預期收益就融和了各個模塊的功能,包括通過快速走子網絡從當前局面開始多次模擬雙方對弈直到分出勝負,策略網絡對模擬中每局每個局面落子概率分布的估算,估值網絡對模擬中每個局面價值的估算,并且該預期收益將在多次推演棋局發展中不斷被更新。
阿爾法元
阿爾法元完全通過自我博弈的強化算法訓練自己
阿爾法元在訓練開始就沒有除規則之外的監督信號,并且只以棋盤當前局面作為網絡輸入。
阿爾法元在模型上只使用一個神經網絡,該神經網絡可以同時預測當前局面落子概率分布與局面評估值,而不像阿爾法狗一樣分別使用策略網絡會和估值網絡
阿爾法元的訓練
阿爾法元在自我對弈中使用基于蒙特卡羅樹搜索算法改進后的策略π\piπ進行落子,并在自我對弈結束時統計勝負結果,將其作為策略迭代算法中的策略評估的標準,用于回溯更新網絡參數。
在回溯更新神經網絡參數時,阿爾法元將使得神經網絡預測的落子概率分布p更接近蒙特卡羅樹搜索得到的落子概率π\piπ,同時使得神經網絡預測的局面勝負結果更接近對弈最終的勝負結果。
總結
- 上一篇: 栖息谷访谈-与佛结缘,访钟声悠扬DEEP
- 下一篇: 你旁边的电闸有辐射或者其它危害吗?