邹伟博士出书啦!——《强化学习》从基础概念、核心原理到应用案例(文末赠书)...
強化學習日漸流行,作為當今社會最熱門的研究課題之一,其關注度正與日俱增。強化學習是機器學習的一個分支,通過與環境的交互進行學習,目前廣泛應用于游戲領域,如ATARI游戲、西洋雙陸棋、AlphaZero等。由于它具有自學習的特性,因此在機器人、工業自動化、自然語言處理、醫療保健及在線股票交易等領域受到了廣泛重視,并取得了眾多成果。
強化學習是一門實踐性很強的學科,同時也具有堅實的理論基礎。本書緊扣讀者需求,采用循序漸進的敘述方式,深入淺出地論述了強化學習的背景、算法原理、應用案例等;?此外,本書針對每一章節的算法均提供了對應的案例和程序源代碼,并附有詳細的注釋,有助于讀者加深對強化學習相關知識的理解。
通過本書,讀者可以從零起步了解并掌握強化學習算法,并且能夠快速選擇合適的算法去解決實際問題。更進一步,通過學習本書,讀者能夠豐富對人類自身的認識,并啟發對人機智能之爭更深一層的思考與探索。
圖書介紹視頻
00
作者簡介
鄒偉? 博士,睿客邦創始人,研究方向為機器學習、數據挖掘、計算幾何,致力于機器學習和深度學習在實際中的應用;主持研發50多個人工智能領域工業級項目,并受邀在中國移動、花旗銀行、中信集團、中航信、烽火科技、京東方、完美世界等公司進行了上百場講座和內部培訓。創立的睿客邦與國內十多所高校建立了AI聯合實驗室或實訓基地;兼任天津大學創業導師、山東交通學院客座教授等。曾在多個在線平臺講授“機器學習”“深度學習”等課程,廣受網友好評,累計學習人數超過百萬。
鬲玲??碩士,資深研發工程師,研究方向為知識工程、語義檢索、強化學習、自然語言處理。作為牽頭單位技術負責人,參與并完成國家科技支撐計劃項目1項,863計劃項目1項。有多年知識管理系統以及自然語言處理項目研發經驗,目前正致力于垂直領域知識圖譜的落地以及強化學習在自然語言處理領域的應用。
劉昱杓??深度學習、強化學習研發工程師,研究方向為計算機視覺。有多年深度學習視覺方向開發經驗,參與了多個圖像識別、目標檢測、目標追蹤等領域的落地項目。目前專注于深度強化學習方向的研究。
01
本書內容
《強化學習》一書內容系統全面,覆蓋面廣,既有理論闡述、公式推導,又有豐富的典型案例,理論聯系實際。書中全面系統地描述了強化學習的起源、背景和分類,各類強化學習算法的原理、實現方式以及各算法間的關系,為讀者構建了一個完整的強化學習知識體系;同時包含豐富的經典案例,如各類迷宮尋寶、飛翔小鳥、撲克牌、小車爬山、倒立擺、鐘擺、多臂賭博機、五子棋、AlphaGo、AlphaGo Zero、AlphaZero等,通過給出它們對應的詳細案例說明和代碼描述,讓讀者深度理解各類強化學習算法的精髓。《強化學習》案例生動形象,描述深入淺出,代碼簡潔易懂,注釋詳細。
《強化學習》可作為高等院校計算機、自動化及相關專業的本科生或研究生教材,也可供對強化學習感興趣的研究人員和工程技術人員閱讀參考。
涉及主題
馬爾可夫決策過程
動態規劃
蒙特卡羅
時序差分
資格跡
值函數逼近
隨機策略梯度
Actor-Critic及變種
確定性策略梯度
學習與規劃
探索與利用
02
圖書目錄
第1章強化學習概述
1.1強化學習的背景
1.2強化學習初探
1.2.1智能體和環境
1.2.2智能體主要組成
1.2.3強化學習、監督學習、非監督學習
1.2.4強化學習分類
1.2.5研究方法
1.2.6發展歷程
1.3強化學習的重點概念
1.3.1學習與規劃
1.3.2探索與利用
1.3.3預測與控制
1.4小結
1.5習題
?
第2章馬爾可夫決策過程
2.1馬爾可夫基本概念
2.1.1馬爾可夫性
2.1.2馬爾可夫過程
2.1.3馬爾可夫決策過程
2.2貝爾曼方程
2.2.1貝爾曼期望方程
2.2.2貝爾曼最優方程
2.3最優策略
2.3.1最優策略定義
2.3.2求解最優策略
2.4小結
2.5習題
?
第3章動態規劃
3.1動態規劃簡介
3.2策略評估
3.3策略改進
3.4策略迭代
3.5值迭代
3.6實例講解
3.6.1“找寶藏”環境描述
3.6.2策略迭代
3.6.3值迭代
3.6.4實例小結
3.7小結
3.8習題
?
第4章蒙特卡羅
4.1蒙特卡羅簡介
4.2蒙特卡羅評估
4.3蒙特卡羅控制
4.4在線策略蒙特卡羅
4.5離線策略蒙特卡羅
4.5.1重要性采樣離線策略蒙特卡羅
4.5.2加權重要性采樣離線策略蒙特卡羅
4.6實例講解
4.6.1“十點半”游戲
4.6.2在線策略蒙特卡羅
4.6.3離線策略蒙特卡羅
4.6.4實例小結
4.7小結
4.8習題
?
第5章時序差分
5.1時序差分簡介
5.2三種方法的性質對比
5.3Sarsa:在線策略TD
5.4Q-learning:離線策略TD方法
5.5實例講解
5.5.1迷宮尋寶
5.5.2Sarsa方法
5.5.3Q-learning方法
5.5.4實例小結
5.6小結
5.7習題
?
第6章資格跡
6.1資格跡簡介
6.2多步TD評估
6.3前向算法
6.4后向算法
6.5前向算法與后向算法的統一
6.6Sarsa(λ)方法
6.6.1前向Sarsa(λ)方法
6.6.2后向Sarsa(λ)方法
6.7Q (λ)方法
6.7.1前向Watkinss Q(λ)方法
6.7.2后向Watkinss Q(λ)方法
*6.7.3Pengs Q(λ)方法
6.8實例講解
6.8.1風格子世界
6.8.2后向Sarsa(λ)
6.8.3后向Q(λ)
6.8.4實例小結
6.9小結
6.10習題
?
第7章值函數逼近
7.1值函數逼近簡介
7.2線性逼近
7.2.1增量法
7.2.2批量法
7.3非線性逼近
7.3.1DQN方法
7.3.2Double DQN方法
7.3.3Dueling DQN方法
7.4實例講解
7.4.1游戲簡介
7.4.2環境描述
7.4.3算法詳情
7.4.4核心代碼
7.5小結
7.6習題
?
第8章隨機策略梯度
8.1隨機策略梯度簡介
8.1.1策略梯度優缺點
8.1.2策略梯度方法分類
8.2隨機策略梯度定理及證明
8.2.1隨機策略梯度定理
*8.2.2隨機策略梯度定理證明
8.3蒙特卡羅策略梯度
8.3.1REINFORCE方法
8.3.2帶基線的REINFORCE方法
8.4TRPO方法
8.5實例講解
8.5.1游戲簡介及環境描述
8.5.2算法詳情
8.5.3核心代碼
8.6小結
8.7習題
?
第9章Actor-Critic及變種
9.1AC方法
9.1.1在線策略AC方法
9.1.2離線策略AC方法
9.1.3兼容性近似函數定理
9.2A2C方法
9.3A3C方法
9.3.1簡介
9.3.2異步Q-learning方法
9.3.3異步Sarsa方法
9.3.4異步n步Q-learning方法
9.3.5A3C方法詳述
9.4實例講解
9.4.1AC實例
9.4.2A3C實例
9.5小結
9.6習題
?
第10章確定性策略梯度
10.1確定性策略梯度及證明
10.1.1確定性策略梯度定理
*10.1.2確定性策略梯度定理證明
10.2DPG方法
10.2.1在線策略確定性AC方法
10.2.2離線策略確定性AC
10.2.3兼容性近似函數定理
10.3DDPG方法
10.3.1DDPG簡介
10.3.2算法要點
10.3.3算法流程
10.4實例講解
10.4.1游戲簡介及環境描述
10.4.2算法詳情
10.4.3核心代碼
10.5小結
10.6習題
?
第11章學習與規劃
11.1有模型方法和無模型方法
11.2模型擬合
11.2.1模型數學表示
11.2.2監督式學習構建模型
11.2.3利用模型進行規劃
11.3Dyna框架及相關算法
11.3.1Dyna-Q
11.3.2Dyna-Q+
11.3.3優先級掃描的Dyna-Q
11.4Dyna-2
11.5實例講解
11.5.1游戲簡介及環境描述
11.5.2算法詳情
11.5.3核心代碼
11.6小結
11.7習題
?
第12章探索與利用
12.1探索-利用困境
12.2多臂賭博機問題
12.3樸素探索
12.4樂觀初始值估計
12.5置信區間上界
12.6概率匹配
12.7信息價值
12.8實例講解
12.8.1游戲簡介及環境描述
12.8.2算法詳情
12.8.3核心代碼
12.9小結
12.10習題
?
第13章博弈強化學習
13.1博弈及博弈樹
13.2極大極小搜索
13.3Alpha-Beta搜索
13.4蒙特卡羅樹搜索
13.5AlphaGo
13.5.1監督學習策略網絡pσ
13.5.2快速走子策略網絡pπ
13.5.3強化學習策略網絡pρ
13.5.4價值網絡vθ
13.5.5蒙特卡羅樹搜索
13.5.6總結
13.6AlphaGo Zero
13.6.1下棋原理
13.6.2網絡結構
13.6.3蒙特卡羅樹搜索
13.6.4總結
13.7AlphaZero
13.8實例講解
13.8.1游戲簡介及環境描述
13.8.2算法流程描述
13.8.3算法細節
13.8.4核心代碼
13.9小結
13.10習題
參考文獻
03
編輯推薦
內容由淺入深
為了讓讀者快速理解和應用強化學習技術,本書深入分析了相關算法的具體實現,由淺入深,循序漸進,內容豐富,易學實用
作者具有豐富的行業實踐經驗
使得內容兼具理論性與實用性,不僅給出了算法的運行流程,還給出了該類算法的應用案例
強化學習算法案例
書中列舉了近20個強化學習算法案例,可以幫助讀者快速提升能力
配套資源
程序代碼,教學課件,習題答案
04
教學資源
本書提供配套教學課件等資源,可以關注「人工智能科學與技術」公眾號,在對話框界面輸入“教學大綱”、“教學課件”、“程序代碼”、“學習素材”可以免費獲取對應資源。
05
圖書贈送
本次為大家帶來5本正版新書。快來發表你的評論,5月31日23點前,評論點贊數前2名的讀者將獲贈正版圖書5本!!!
06
圖書詳情
掃碼可以觀看《強化學習》京東詳情頁面。
AI學習相伴,你「在看」嗎↓
總結
以上是生活随笔為你收集整理的邹伟博士出书啦!——《强化学习》从基础概念、核心原理到应用案例(文末赠书)...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【算法入门】动态图展示 6 个常用的数据
- 下一篇: 【Python应用】Python+Kep