清华大学人工智能研究院开源“天授”强化学习平台
深度強化學習(deep RL)近年來取得了令人矚目的進步,在Atari游戲、圍棋等領(lǐng)域戰(zhàn)勝了人類。但是,在面對不確定環(huán)境、不完全信息的任務(wù)時仍然面臨很大的挑戰(zhàn)。如何求解非完全信息、不確定條件下的決策問題成為當前人工智能面臨的重要挑戰(zhàn)。清華大學人工智能研究院基礎(chǔ)理論研究中心聚焦這一問題,開展了一系列理論和關(guān)鍵技術(shù)研究,自研了深度強化學習算法平臺“天授”,日前向業(yè)界開源:
https://github.com/thu-ml/tianshou
“天授”源自《史記》,意為“取天所授而非學自人類”,刻畫了強化學習通過與環(huán)境進行交互自主學習,而不需要像監(jiān)督學習一樣需要大量人類標注數(shù)據(jù)。清華大學團隊針對目前多數(shù)既有強化學習平臺(如 RLLib 和 BaseLine)等無法支持高效、定制化的訓練場景的問題,繼承了首版 TensorFlow“天授 0.1”版在模塊化等方面的優(yōu)勢,推出了基于 PyTorch 框架的“天授 0.2”版本。?
相比較目前的幾種 PyTorch 強化學習平臺,多數(shù)存在框架結(jié)構(gòu)復(fù)雜、二次開發(fā)困難、對用戶不友好等問題,在朱軍、蘇航等老師的指導(dǎo)下,由翁家翌牽頭、張鳴昊和閻棟等參與下,在前期課題組閻棟、鄒昊晟、任桐正等“天授 0.1”版本的基礎(chǔ)上,開展“天授 0.2”版本的研制。
“天授”針對現(xiàn)有平臺訓練速度慢的缺點,在并行采樣基礎(chǔ)上提高數(shù)據(jù)收集能力,采用了 cache_buffer 配合 trainer 聯(lián)動即可達到每秒 5000-6000fps 的速度;同時注重代碼模塊化設(shè)計,通過避免不必要的額外運算,將 reward normalization 等現(xiàn)有各類實現(xiàn)中被證明行之有效的各種改進吸納進“天授 0.2”版本。通過 PyTorch 重寫底層機制,“天授 0.2”主要特點包括:?
1. 代碼實現(xiàn)簡潔:目前整個框架代碼量約為 1500 行左右,但已經(jīng)可以完整支持 PG,DQN,DDQN,A2C,DDPG,PPO,TD3,SAC 等主流強化學習算法;
2. 模塊化:所有策略實現(xiàn)都被拆解成 4 個模塊,只要完善了框架給定的接口就能在 100 行之內(nèi)完整實現(xiàn)一個強化學習算法;?
3. 可復(fù)現(xiàn)性:天授 0.2 利用 Github Actions 進行單元測試。每一次單元測試除了基本功能的測試之外,還包括針對所有算法的完整訓練過程,也就是說一旦有一個算法沒辦法 train 出來結(jié)果,單元測試不能通過。據(jù)我們所知,得益于天授快速的訓練機制,天授是目前唯一一個采用這種標準進行單元測試的強化學習框架;?
4. 接口靈活:用戶可以定制各種各樣的 training 方法。提供示例,方便用戶根據(jù)自己的需要進行二次開發(fā);
5. 訓練速度快:目前針對支持的測試場景,天授 0.2 比既有主流強化學習平臺具有更好的性能,尤其在訓練復(fù)雜度方面。如下圖所示:
清華大學人工智能研究院基礎(chǔ)理論研究中心在不完全信息決策方面近年來取得過諸多重要成果。早在 2017 年,首次參賽的該團隊就在基于《毀滅戰(zhàn)士》的? ViZDoom AI 比賽中獲得了亞軍,并于 2018 年獲得該項目的冠軍,這也是該賽事來自中國賽區(qū)的首個冠軍。
與此同時,該團隊在不完全信息決策的理論方面也取得了一系列重要成果,多篇工作發(fā)表在人工智能領(lǐng)域頂級國際會議 ICML、ICLR 上。其中將博弈論和多智能體結(jié)合的新算法被 ICLR 2020 接受為口頭報告(接受率 <1.9%),被評審評價為將博弈論和強化學習之間建立了嶄新的聯(lián)系(novel connections between Game Theory and RL)。?
論文標題:Posterior sampling for multi-agent reinforcement learning: solving extensive games with imperfect information
論文來源:ICLR 2020
論文鏈接:https://openreview.net/forum?id=Syg-ET4FPS¬eId=Syg-ET4FPS
關(guān)于未來的工作,團隊負責人朱軍教授表示,將在既有工作基礎(chǔ)上,從三個維度拓展“天授”平臺,從算法層面來講,將對目前主流強化學習算法進行更加前面的支持,包括 model-based RL, imitation learning 等;從任務(wù)層面來講,將進一步支持包括 Atari、VizDoom 等復(fù)雜任務(wù);從性能上來講,將進一步提升平臺在模型性能、訓練速度、魯棒性等方面的核心指標,更好的為學術(shù)界服務(wù)。朱軍教授強調(diào),不完全信息決策是實驗室未來布局的重點方向,也是清華大學在“魯棒、安全、可拓展、可理解”的第三代人工智能研究方面的重要布局。?
“天授”整體架構(gòu)如下圖所示:
據(jù)悉,清華大學人工智能研究院依托計算機科學與技術(shù)系,電子系、自動化系等院系共建,于 2018 年成立,圍繞“一個核心,兩個融合”的宗旨,服務(wù)國家和清華大學的人工智能戰(zhàn)略。2019 年 5 月成立基礎(chǔ)理論研究中心,由朱軍教授擔任主任。該中心著眼于目前人工智能發(fā)展的瓶頸問題,以建立人工智能的原創(chuàng)性基礎(chǔ)理論為目標,通過和腦科學、認知科學和統(tǒng)計學等學科的大跨度學科交叉融合,發(fā)展魯棒、可理解、數(shù)據(jù)高效和安全的人工智能。“天授”是繼“珠算”可微分概率編程庫(https://github.com/thu-ml/zhusuan)之后,該中心推出的又一個面向復(fù)雜決策任務(wù)的編程庫。
????
現(xiàn)在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結(jié)
以上是生活随笔為你收集整理的清华大学人工智能研究院开源“天授”强化学习平台的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 微软 Win10 收复失地,成为 9 月
- 下一篇: 2021年开什么实体店比较赚钱 夏天