转载:AI综述专栏
AI綜述專欄
在科學研究中,從方法論上來講,都應先見森林,再見樹木。當前,人工智能科技迅猛發(fā)展,萬木爭榮,更應系統梳理脈絡。為此,我們特別精選國內外優(yōu)秀的綜述論文,開辟“綜述”專欄,敬請關注。
導讀
近年來,神經科學和AI相關領域取得快速發(fā)展。在計算機時代早期,AI的研究與神經科學和心理學的研究有著千絲萬縷的關系,很多早期的研究人員都是橫跨兩個領域,并且取得了大量成果。可近年來,隨著兩個領域的研究越來越深入,學科的邊界越來越明顯,它們之間的交流漸漸減少。本文認為,神經科學的研究對于加速和啟發(fā)AI的發(fā)展具有越來越關鍵的作用。
作者簡介
戴密斯·哈比斯,世界著名的游戲開發(fā)者、神經科學家、人工智能科學家和企業(yè)家,AlphaGo的開發(fā)者,世界頂級人工智能研究機構——DeepMind公司創(chuàng)始人兼CEO。被授予倫敦帝國理工學院榮譽學位,英國皇家工程學院院士,英國皇家學會會員。從4歲開始下象棋,8歲編寫計算機游戲,20歲獲得劍橋大學計算機科學學士學位。畢業(yè)后創(chuàng)立了Elixir工作室,成為一名獨立游戲開發(fā)者。2005年,回到校園學習認知神經科學,獲得倫敦大學學院博士學位。博士期間以海馬為研究對象,提出了關于情節(jié)記憶系統的新理論,該工作被《科學》雜志評為年度十大科學突破之一。2011年,中斷博士后研究,創(chuàng)辦了DeepMind公司,以“解決智能”為公司的終極目標。
劉博,中科院自動化所直博一年級在讀,研究興趣為深度神經網絡的可解釋性、生物視覺啟發(fā)的視覺算法。
目 錄
1 引言
2 過去
2.1 深度學習
2.2 強化學習
3 現在
3.1 注意機制
3.2 情景記憶
3.3 工作記憶
3.4 持續(xù)學習
4 未來
4.1 對物質世界的直觀理解
4.2 高效學習
4.3 遷移學習
4.4 想象與規(guī)劃
4.5 虛擬大腦分析
5 結束語
6 參考文獻
7 推薦文獻
1 引言
神經科學對于AI研究的促進主要體現在兩個方面:首先,作為數學和邏輯方法的補充,神經科學為人工智能領域的新算法、新結構提供了豐富的靈感。其次,神經科學可以對現有AI算法的智能性進行驗證。即雖然一個算法在數據集上沒有取得很好的效果,但算法的機理符合神經計算的機理,則說明該算法值得繼續(xù)探索。當然,從工程角度來看,讓模型完全地符合神經機理不是必須的。神經科學只是作為一種啟發(fā),而不是強制性的。
值得注意的是,本文所指的神經科學是指包括系統神經科學、認知神經科學和心理學在內的廣義的神經科學。人工智能是指包括機器學習、統計學等致力于建立智能系統的所有研究內容。本文所指的啟發(fā),是指在計算與算法、結構以及功能層次的啟發(fā)。這與馬爾視覺計算理論的三個層次中的前兩個層次大致對應。即系統的目標(計算層次)和實現目標的方法(算法層次)。至于大腦皮層神經元是如何實現這些計算過程的(算法實現層次),這里不涉及。
下面本文將在過去、現在和未來三個階段介紹神經科學對AI的啟發(fā)作用。
2 過去
2.1 深度學習
眾所周知,近年來的AI發(fā)展主要依靠的是深度學習【1】,而深度學習與神經科學有著直接而緊密的聯系。神經科學家最先提出了神經網絡【2】的基本模型,而現在最主流的卷積神經網絡【3 4】仍然包含了神經網絡最本質的特點,如層級結構、非線性激活、最大值池化等,這些特點直接來源于神經科學中對哺乳動物視覺皮層的單細胞記錄實驗結論。另外,神經網絡中的正則化也來源于神經科學。如Dropout算法【5】,受啟發(fā)于神經元發(fā)放的隨機性,即神經元的響應近似服從泊松分布。總而言之,在過去的研究中,神經科學為創(chuàng)造新的神經網絡結構和算法提供了原始的指引。
2.2 強化學習
除了深度學習,AI領域的另一個支柱是強化學習【6】。強化學習的目的是基于現有的環(huán)境狀態(tài),依據特定策略選擇一個動作以獲得更好的回報。強化學習的靈感直接來源于神經科學對動物學習行為的研究。特別的,強化學習中最關鍵的時間差分算法(Temporal-difference)受啟發(fā)于對動物在特定條件下的行為研究。從機器人控制到阿法狗,時間差分算法為現有AI研究提供了關鍵技術。
3 現在
3.1 注意機制
當我們學習一個任務時,大腦中的神經網絡并不是進行的全局優(yōu)化。大腦是模塊化的,不同的功能對應不同的腦區(qū),當執(zhí)行某一特定任務時只有對應的部分神經網絡會激活。最近卷積神經網絡中的注意機制也暗含著這種機理。直到最近,大部分的卷積神經網絡對輸入的整幅圖像的每個像素都賦予同樣的關注。但在人腦視覺系統中,視覺注意機制【7】會對輸入圖像中不同部分賦予不同關注,將注意在整幅圖像中策略性移動。比如我們觀察圖像時會自覺地將注意移到圖像的前景上而忽視背景,然后集中視覺處理資源對前景進行處理以快速完成物體識別。通過借鑒人類視覺注意機制,現有的卷積神經網絡模型通過快速的掃描圖像,逐步將注意轉移到圖像中下一個位置【8】。這種卷積神經模型能夠使用選擇性注意機制對目標物體賦予更多關注而忽略場景中不相關的背景,能夠準確地完成復雜場景、具有遮擋情況下的物體識別任務【9】,在準確率和計算效率方面超過了對整幅圖像賦予同等關注的普通卷積神經網絡模型。
3.2 情景記憶
神經科學表明智能行為依賴于多種記憶系統。記憶一方面是基于強化學習的機理,即對經歷的大量動作及其反饋值進行學習總結。另一方面是基于個例學習的機理,即對經歷的個例進行快速編碼和存儲,這種記憶,也稱為情景記憶,它的形成主要與海馬區(qū)有關。最近深度學習和強化學習的結合——深度強化學習取【10 11】得了很大的突破,比如眾所周知的阿法狗的核心技術就是深度強化學習。深度學習和強化學習的結合存在兩個主要問題:第一是深度學習需要大量獨立的樣本,而強化學習中的樣本都是高度相關的狀態(tài)序列;第二是深度學習需要樣本滿足潛在分布,而強化學習中樣本的分布隨著學習過程而變化。為了解決訓練樣本高度相關以及樣本分布不穩(wěn)定的問題,研究人員提出了經驗回放機制(experience replay),即對經歷過的所有個例樣本進行間隔采樣獲得訓練數據。這種經驗回放機制直接來源于對哺乳類動物大腦中多種記憶系統相互作用的研究。在哺乳類動物大腦中,首先海馬區(qū)會對見到的個例信息進行編碼,當進入休眠態(tài)時,這些編碼會被整合到新皮質中,這個整合過程就是一種經驗回放的過程。最近的研究表明【12】,當回放更多高回報的個例樣本時,DQN(Deep Q-learning)中的經驗回放機制能取得更好的效果。這與海馬區(qū)更喜歡回放更多具有高回報的個例的現象是一致的。
3.3 工作記憶
人類智能與工作記憶緊密相關。所謂工作記憶就是在對信息進行臨時保存的同時對信息進行操作。經典的認知理論認為工作記憶是通過一個中心控制器和多個獨立的、與特定任務相關的記憶緩存器來完成的【13】。AI研究人員基于這一機理提出了能夠在較長時間內保存歷史狀態(tài)信息的模型,其中循環(huán)神經網絡(RNN)【14】就是一個典型。在循環(huán)神經網絡的基礎上,研究人員進一步提出了長短時記憶網絡(LSTM)【15】,在序列建模領域取得很好的性能。值得注意的是,LSTM網絡和工作記憶模型并不完全相同。在普通的LSTM網絡中,序列的控制和記憶的存儲是混在一起的。但在工作記憶模型中,序列控制和記憶存儲是分開實現的,所以這就導致了更復雜的微分神經計算機(DNC)模型【16 17】的產生。在微分神經計算機中,序列控制和記憶存儲分別使用了不同的模塊。它包括了一個神經網絡控制器模塊,神經網絡控制器能從外部存儲模塊中讀寫矩陣,并且可以進行端對端的訓練,能夠完成一系列更復雜的記憶和推理任務。
3.4 持續(xù)學習
一個智能體必須具備持續(xù)學習的能力。所謂持續(xù)學習,是指當學習新的任務時不能忘記之前已學習到的任務。很顯然,大部分的神經網絡并不具備這種能力,因為當網絡在訓練時,之前學習得到的參數都會被不斷更新。利用先進的神經影像技術,神經科學家發(fā)現人類之所以在學習新任務的同時能夠防止之前學習到的任務不被破壞,一個主要原因是已經學習好的那部分神經網絡的突觸可塑性降低。基于這個機理,研究人員提出了能夠進行持續(xù)學習的彈性權重鞏固(elastic weight consolidation,EWC)算法【18】。算法的核心思想是,在學習新任務時,算法會降低那部分對某個學習任務十分重要的子網絡的學習速度,因此保留了網絡對之前任務的處理能力。
4 未來
4.1 對物質世界的直觀理解
與人相比,機器缺少與物質世界中核心概念有關的常識。比如空間、物體。這些常識構成了人類對物體間基本關系的認識,從而有利于人類的推理和預測。因此構建一種能夠將場景分解為物體和物體間關系進而解釋和推理物理場景的神經網絡十分重要【19】。現在已經有工作在進行這方面研究【20 21 22】,它們通過將場景分解為物體和物體關系從而建立了一種能夠解釋和推理的神經網絡模型,在一些推理任務上取得了人類水平的表現。另外,深度生成模型也是一個值得探索的方向,它在利用原始感知數據構建豐富的物體模型方面有重要的作用【23】。
4.2 高效學習
利用先驗知識從少量樣本中快速學習新的概念是人類獨特的能力。為了研究機器的這種高效學習能力,Lake等人設計了一個字符識別的任務【24】。在任務中,機器在學習了單個示例后,必須將一個新的不熟悉的字符從其他類似的字符中區(qū)分出來。顯然,目前的機器在還沒有具備這種理解能力。值得慶幸的是,最近對結構化的概率模型【25】和深度生成模型【26】的研究將有助于機器獲得這種能力,這兩種模型能從少量樣本中學習到新的概念,從單個示例學習中生成數據分布。同樣,這種基于小樣本的學習算法可以在神經科學關于動物學習的研究以及發(fā)展心理學研究中找到靈感【27】。
4.3 遷移學習
人類能夠將學到的知識推廣到其他之前沒有接觸過的概念上,比如一個使用過Windows系統的人很容易就學會使用其他操作系統。目前的研究正在讓機器也獲得這種遷移學習的能力。比如基于成分表征【23】的方法,它能夠讓識別出在訓練數據分布以外的新樣本。還有漸進網絡,它能夠被成功地用于將模擬機器人環(huán)境的知識轉移到真正的機器人手臂上,大大減少了在現實世界所需的訓練時間【28】。神經科學的觀點認為,遷移學習的一個標志是具備進行關系推理的能力,研究人員也在開始建立解決這類問題的深度神經網絡【29】。但由于人類進行遷移學習的神經機理仍然不是很清楚,所以這方面的研究還有待更多的工作投入。
4.4 想象與規(guī)劃
盡管基于最大化期望價值的深度強化學習已經取得很好的性能,但這種與模型無關(model-free)的強化學習仍存在兩個問題:首先它需要大量的經驗才能對價值進行準確地估計;其次它的策略對價值的變化太敏感,不夠靈活。相反,人類可以使用基于模擬的規(guī)劃(simulation-based planning)來靈活地選擇策略以最大化未來長期價值。這種基于模擬的規(guī)劃使用經驗對環(huán)境建立內部模型【30】,并以此生成規(guī)劃。當然,研究人員也借鑒這種機理建立了基于模型(model-based)以及基于模擬的的強化學習方法,如蒙特卡洛樹搜索(MCTS)【31】。但是,目前的規(guī)劃算法還沒有捕捉到人類規(guī)劃能力中核心的特點。要解決這個問題,我們需要充分地理解動物怎樣從經驗中學習并建立針對環(huán)境的內部模型。神經科學家對動物怎樣基于現有狀態(tài)想象未來可能的情景以及如何進行基于模擬的規(guī)劃進行了研究。比如,當處于選擇猶豫時,大鼠海馬區(qū)的神經活動與進行路徑導航時的神經活動相似,好像它正在想象各種可能的方案。這表明動物通過實例化一個環(huán)境內部模型,即想象可能的場景,然后對這個場景進行評價,從而獲得完成規(guī)劃任務【32】。目前,基于模擬的規(guī)劃取得的初步成果有基于深度生成模型【22 26 33】的方法。它能夠生成時間一致的序列樣本,這些樣本能夠反映最近經歷過的現實環(huán)境的幾何布局。這一算法思想與神經科學的結論也是一致的。
4.5 虛擬大腦分析
目前,雖然深度學習和深度強化學習取得了突破式的性能,但對我們來說它們還相當于一個黑盒子,我們無法解釋它們的內部表達和計算機理。通過借鑒神經科學中的探測技術,比如單細胞記錄、神經影像、切除技術等,有助于我們分析神經網絡,更好的解釋模型。最近這方面的研究取得了一些進展。首先,神經科學中通過降維來可視化大腦內部狀態(tài)的方法被用來分析神經網絡【34】。其次,感受野映射的方法被用來分析神經網絡中單個神經元的響應特性,其中一個典型的應用就是激活最大化,它通過最大化確定類別神經元的響應來合成圖像【35】。另外,受神經科學啟發(fā)的線性化網絡分析方法可以揭示一些對網絡優(yōu)化有利的重要準則,有助于理解網絡深度和表達結構的作用【36】。雖然這些工作是有效的,但是理解結構更復雜的網絡仍然十分困難,比如帶有外部存儲的網絡結構。這些研究仍然需要進一步借鑒神經科學。
總結
- 上一篇: docker 本地部署 mysql_Do
- 下一篇: 深度丨机器学习的理论局限性与因果推理的七