AI圣经《深度学习》作者斩获2018年图灵奖,100 万奖励!...
生活随笔
收集整理的這篇文章主要介紹了
AI圣经《深度学习》作者斩获2018年图灵奖,100 万奖励!...
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
2019年3月27日 ——ACM宣布,深度學(xué)習(xí)之父Yoshua Bengio, Yann LeCun, 以及Geoffrey Hinton獲得了2018年的圖靈獎(jiǎng),被稱為“計(jì)算機(jī)領(lǐng)域的諾貝爾獎(jiǎng)”。其中Yoshua Bengio是《深度學(xué)習(xí)》作者之一。
今天,深度學(xué)習(xí)已經(jīng)成為了人工智能技術(shù)領(lǐng)域最重要的技術(shù)之一。在最近數(shù)年中,計(jì)算機(jī)視覺、語音識(shí)別、自然語言處理和機(jī)器人取得的爆炸性進(jìn)展都離不開深度學(xué)習(xí)。
三人在人工智能領(lǐng)域的成就數(shù)不勝數(shù),但是ACM依然列數(shù)了三位大咖最值得被記住的成就,我們也在此重新回顧他們的故事,簡(jiǎn)直就是一部人工智能/深度學(xué)習(xí)的發(fā)家史。
圖靈獎(jiǎng)(Turing Award),全稱“A.M. 圖靈獎(jiǎng)(A.M Turing Award)” ,由美國計(jì)算機(jī)協(xié)會(huì)(ACM)于1966年設(shè)立,專門獎(jiǎng)勵(lì)那些對(duì)計(jì)算機(jī)事業(yè)作出重要貢獻(xiàn)的個(gè)人 。其名稱取自計(jì)算機(jī)科學(xué)的先驅(qū)、英國科學(xué)家艾倫·麥席森·圖靈(Alan M. Turing) 。它是計(jì)算機(jī)界最負(fù)盛名、最崇高的一個(gè)獎(jiǎng)項(xiàng),有“計(jì)算機(jī)界的諾貝爾獎(jiǎng)”之稱 。
圖靈獎(jiǎng)設(shè)獎(jiǎng)初期為20萬美元,1989年起增到25萬美元,獎(jiǎng)金通常由計(jì)算機(jī)界的一些大企業(yè)提供(通過與ACM簽訂協(xié)議)。目前圖靈獎(jiǎng)由Google公司贊助,獎(jiǎng)金為1,000,000美元。
高維詞匯嵌入和關(guān)注:2000 年,Bengio 撰寫了具有里程碑意義的論文“A Neural Probabilistic Language Model”,它引入了高維詞向量作為詞義的表示。Bengio 的見解對(duì)自然語言處理任務(wù)產(chǎn)生了巨大而持久的影響,包括語言翻譯、問答和視覺問答。他的團(tuán)隊(duì)還引入了注意力機(jī)制,這種機(jī)制促使了機(jī)器翻譯的突破,并構(gòu)成了深度學(xué)習(xí)的序列處理的關(guān)鍵組成部分。
生成性對(duì)抗網(wǎng)絡(luò):自 2010 年以來,Bengio 關(guān)于生成性深度學(xué)習(xí)的論文,特別是與 Ian Goodfellow 共同開發(fā)的生成性對(duì)抗網(wǎng)絡(luò)(GAN),引發(fā)了計(jì)算機(jī)視覺和計(jì)算機(jī)圖形學(xué)的革命。
Geoffrey Hinton 反向傳播:在 1986 年與 David Rumelhart 和 Ronald Williams 共同撰寫的 “Learning Internal Representations by Error Propagation” 一文中,Hinton 證明了反向傳播算法允許神經(jīng)網(wǎng)絡(luò)發(fā)現(xiàn)自己的數(shù)據(jù)內(nèi)部表示,這使得使用神經(jīng)網(wǎng)絡(luò)成為可能網(wǎng)絡(luò)解決以前被認(rèn)為超出其范圍的問題。如今,反向傳播算法是大多數(shù)神經(jīng)網(wǎng)絡(luò)的標(biāo)準(zhǔn)。
玻爾茲曼機(jī)(Boltzmann Machines):1983 年,Hinton 與 Terrence Sejnowski 一起發(fā)明了玻爾茲曼機(jī),這是第一個(gè)能夠?qū)W習(xí)不屬于輸入或輸出的神經(jīng)元內(nèi)部表示的神經(jīng)網(wǎng)絡(luò)之一。
卷積神經(jīng)網(wǎng)絡(luò)的改進(jìn):2012 年,Hinton 和他的學(xué)生 Alex Krizhevsky 以及 Ilya Sutskever 通過 Rectified Linear Neurons 和 Dropout Regularization 改進(jìn)了卷積神經(jīng)網(wǎng)絡(luò),并在著名的 ImageNet 評(píng)測(cè)中將對(duì)象識(shí)別的錯(cuò)誤率減半,在計(jì)算機(jī)視覺領(lǐng)域掀起一場(chǎng)革命。
Yann LeCun 卷積神經(jīng)網(wǎng)絡(luò):在 20 世紀(jì) 80 年代,LeCun 研發(fā)了卷積神經(jīng)網(wǎng)絡(luò),現(xiàn)已成為該領(lǐng)域的基本理論基礎(chǔ)。其讓深度學(xué)習(xí)更有效。在 20 世紀(jì) 80 年代后期,多倫多大學(xué)和貝爾實(shí)驗(yàn)室工作期間,LeCun 是第一個(gè)在手寫數(shù)字圖像上訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)系統(tǒng)的人。如今,卷積神經(jīng)網(wǎng)絡(luò)是計(jì)算機(jī)視覺以及語音識(shí)別、語音合成、圖像合成和自然語言處理的行業(yè)標(biāo)準(zhǔn)。它們用于各種應(yīng)用,包括自動(dòng)駕駛、醫(yī)學(xué)圖像分析、語音激活助手和信息過濾。
改進(jìn)反向傳播算法:LeCun 提出了一個(gè)早期的反向傳播算法 backprop,并根據(jù)變分原理對(duì)其進(jìn)行了簡(jiǎn)潔的推導(dǎo)。他的工作讓加快了反向傳播算,包括描述兩種加速學(xué)習(xí)時(shí)間的簡(jiǎn)單方法。
拓寬神經(jīng)網(wǎng)絡(luò)的視野:LeCun 還將神經(jīng)網(wǎng)絡(luò)作為可以完成更為廣泛任務(wù)的計(jì)算模型,其早期工作現(xiàn)已成為 AI 的基礎(chǔ)概念。例如,在圖像識(shí)別領(lǐng)域,他研究了如何在神經(jīng)網(wǎng)絡(luò)中學(xué)習(xí)分層特征表示,這個(gè)理念現(xiàn)在通常用于許多識(shí)別任務(wù)中。與 LéonBottou 一起,他還提出了學(xué)習(xí)系統(tǒng)可以構(gòu)建為復(fù)雜的模塊網(wǎng)絡(luò),其中通過自動(dòng)區(qū)分來執(zhí)行反向傳播,目前在每個(gè)現(xiàn)代深度學(xué)習(xí)軟件中得到使用。他們還提出了可以操作結(jié)構(gòu)化數(shù)據(jù)的深度學(xué)習(xí)架構(gòu),例如圖形。
該書包括3 個(gè)部分,第1 部分介紹基本的數(shù)學(xué)工具和機(jī)器學(xué)習(xí)的概念,它們是深度學(xué)習(xí) 的預(yù)備知識(shí)。第2 部分系統(tǒng)深入地講解現(xiàn)今已成熟的深度學(xué)習(xí)方法和技術(shù)。第3 部分討論某 些具有前瞻性的方向和想法,它們被公認(rèn)為是深度學(xué)習(xí)未來的研究重點(diǎn)。因此,該書適用于 不同層次的讀者。我本人在閱讀該書時(shí)受到啟發(fā)良多,大有裨益,并采用該書作為教材在北 京大學(xué)講授深度學(xué)習(xí)課程。 這是一本涵蓋深度學(xué)習(xí)技術(shù)細(xì)節(jié)的教科書,它告訴我們深度學(xué)習(xí)集技術(shù)、科學(xué)與藝術(shù)于 一體,牽涉統(tǒng)計(jì)、優(yōu)化、矩陣、算法、編程、分布式計(jì)算等多個(gè)領(lǐng)域。書中同時(shí)也蘊(yùn)含了作者 對(duì)深度學(xué)習(xí)的理解和思考,處處閃爍著深刻的思想,耐人回味。第1 章關(guān)于深度學(xué)習(xí)的思想、 歷史發(fā)展等論述尤為透徹而精辟。 作者在書中寫到:“人工智能的真正挑戰(zhàn)在于解決那些對(duì)人來說很容易執(zhí)行、但很難形式 化描述的任務(wù),比如識(shí)別人們所說的話或圖像中的臉。對(duì)于這些問題,我們?nèi)祟愅梢詰{ 直覺輕易地解決”。為了應(yīng)對(duì)這些挑戰(zhàn),他們提出讓計(jì)算機(jī)從經(jīng)驗(yàn)中學(xué)習(xí),并根據(jù)層次化的概 念體系來理解世界,而每個(gè)概念通過與某些相對(duì)簡(jiǎn)單的概念之間的關(guān)系來定義。由此,作者 給出了深度學(xué)習(xí)的定義:“層次化的概念讓計(jì)算機(jī)構(gòu)建較簡(jiǎn)單的概念來學(xué)習(xí)復(fù)雜概念。如果繪 制出表示這些概念如何建立在彼此之上的一幅圖,我們將得到一張`深'(層次很多) 的圖。由 此,我們稱這種方法為AI 深度學(xué)習(xí)(deep learning)”。 《深度學(xué)習(xí)》中文版從引進(jìn)版權(quán)到正式出版歷經(jīng)三年,中文版的推出填補(bǔ)了目前國內(nèi)缺乏深度學(xué)習(xí)綜合性教科書的空白。該書從淺入深介紹了基礎(chǔ)數(shù)學(xué)知識(shí)、機(jī)器學(xué)習(xí)經(jīng)驗(yàn)以及現(xiàn)階段深度學(xué)習(xí)的理論和發(fā)展,它能幫助人工智能技術(shù)愛好者和從業(yè)人員在三位專家學(xué)者的思維帶領(lǐng)下全方位了解深度學(xué)習(xí)。該書一經(jīng)推出變橫掃暢銷榜。 這是一本教科書,又不只是一本教科書,任何對(duì)深度學(xué)習(xí)感興趣的讀者,閱讀本書都會(huì)受益。除了學(xué)習(xí)機(jī)器學(xué)習(xí)的大學(xué)生,沒有機(jī)器學(xué)習(xí)或統(tǒng)計(jì)背景的軟件工程師也可以通過本書快速補(bǔ)充相關(guān)知識(shí),并在他們的產(chǎn)品或平臺(tái)中使用。 本書最大的一個(gè)特點(diǎn)是介紹深度學(xué)習(xí)算法的本質(zhì),脫離具體代碼實(shí)現(xiàn)給出算法背后的邏輯,不寫代碼的人也完全可以看。本書的另一個(gè)特點(diǎn)是,為了方便讀者閱讀,作者特別繪制了本書的內(nèi)容組織結(jié)構(gòu)圖,指出了全書20章內(nèi)容之間的相關(guān)關(guān)系,如圖所示。讀者可以根據(jù)自己的背景或需要,隨意挑選閱讀。
圖1 《深度學(xué)習(xí)》中文版內(nèi)容組織結(jié)構(gòu)圖。從一章到另一章的箭頭表示前一章是理解后一章的必備內(nèi)容。
圖2 根據(jù)Google圖書中短語“控制論”“聯(lián)結(jié)主義”或“神經(jīng)網(wǎng)絡(luò)”頻率衡量的人工神經(jīng)網(wǎng)絡(luò)研究的歷史浪潮(圖中展示了3次浪潮的前兩次,第3次最近才出現(xiàn))。第1次浪潮開始于20世紀(jì)40年代到20世紀(jì)60年代的控制論,隨著生物學(xué)習(xí)理論的發(fā)展(Mc Culloch and Pitts,1943;Hebb,1949)和第一個(gè)模型的實(shí)現(xiàn)(如感知機(jī)(Rosenblatt,1958)),能實(shí)現(xiàn)單個(gè)神經(jīng)元的訓(xùn)練。第2次浪潮開始于1980—1995年間的聯(lián)結(jié)主義方法,可以使用反向傳播(Rumelhart et al.,1986a)訓(xùn)練具有一兩個(gè)隱藏層的神經(jīng)網(wǎng)絡(luò)。當(dāng)前第3次浪潮,也就是深度學(xué)習(xí),大約始于2006年(Hinton et al.,2006a;Bengio et al.,2007a;Ranzato et al.,2007a),并且于2016年以圖書的形式出現(xiàn)。另外,前兩次浪潮類似地出現(xiàn)在書中的時(shí)間比相應(yīng)的科學(xué)活動(dòng)晚得多 現(xiàn)代術(shù)語“深度學(xué)習(xí)”超越了目前機(jī)器學(xué)習(xí)模型的神經(jīng)科學(xué)觀點(diǎn)。它訴諸于學(xué)習(xí)多層次組合這一更普遍的原理,這一原理也可以應(yīng)用于那些并非受神經(jīng)科學(xué)啟發(fā)的機(jī)器學(xué)習(xí)框架。 現(xiàn)代深度學(xué)習(xí)最早的前身是從神經(jīng)科學(xué)的角度出發(fā)的簡(jiǎn)單線性模型。這些模型設(shè)計(jì)為使用一組n個(gè)輸入x1,…,xn,并將它們與一個(gè)輸出y相關(guān)聯(lián)。這些模型希望學(xué)習(xí)一組權(quán)重w1,…,wn,并計(jì)算它們的輸出f(x,w)=x1w1+…+xnwn。如圖1.7所示,第一次神經(jīng)網(wǎng)絡(luò)研究浪潮稱為控制論。 McCulloch-Pitts 神經(jīng)元(McCulloch and Pitts,1943)是腦功能的早期模型。該線性模型通過檢驗(yàn)函數(shù) f(x,w)的正負(fù)來識(shí)別兩種不同類別的輸入。顯然,模型的權(quán)重需要正確設(shè)置后才能使模型的輸出對(duì)應(yīng)于期望的類別。這些權(quán)重可以由操作人員設(shè)定。20 世紀(jì) 50 年代,感知機(jī)(Rosenblatt,1956,1958)成為第一個(gè)能根據(jù)每個(gè)類別的輸入樣本來學(xué)習(xí)權(quán)重的模型。大約在同一時(shí)期,自適應(yīng)線性單元(adaptive linear element,ADALINE)簡(jiǎn)單地返回函數(shù)f(x)本身的值來預(yù)測(cè)一個(gè)實(shí)數(shù),并且它還可以學(xué)習(xí)從數(shù)據(jù)預(yù)測(cè)這些數(shù)。 這些簡(jiǎn)單的學(xué)習(xí)算法大大影響了機(jī)器學(xué)習(xí)的現(xiàn)代景象。用于調(diào)節(jié)ADALINE權(quán)重的訓(xùn)練算法是被稱為隨機(jī)梯度下降(stochastic gradient descent)的一種特例。稍加改進(jìn)后的隨機(jī)梯度下降算法仍然是當(dāng)今深度學(xué)習(xí)的主要訓(xùn)練算法。 基于感知機(jī)和 ADALINE中使用的函數(shù) f(x,w)的模型稱為線性模型(linear model)。盡管在許多情況下,這些模型以不同于原始模型的方式進(jìn)行訓(xùn)練,但仍是目前最廣泛使用的機(jī)器學(xué)習(xí)模型。 線性模型有很多局限性。最著名的是,它們無法學(xué)習(xí)異或(XOR)函數(shù),即f([0,1],w)=1和f([1,0],w)=1,但f([1,1],w)=0和f([0,0],w)=0。觀察到線性模型這個(gè)缺陷的批評(píng)者對(duì)受生物學(xué)啟發(fā)的學(xué)習(xí)普遍地產(chǎn)生了抵觸(Minsky and Papert,1969)。這導(dǎo)致了神經(jīng)網(wǎng)絡(luò)熱潮的第一次大衰退。 現(xiàn)在,神經(jīng)科學(xué)被視為深度學(xué)習(xí)研究的一個(gè)重要靈感來源,但它已不再是該領(lǐng)域的主要指導(dǎo)。 如今神經(jīng)科學(xué)在深度學(xué)習(xí)研究中的作用被削弱,主要原因是我們根本沒有足夠的關(guān)于大腦的信息來作為指導(dǎo)去使用它。要獲得對(duì)被大腦實(shí)際使用算法的深刻理解,我們需要有能力同時(shí)監(jiān)測(cè)(至少是)數(shù)千相連神經(jīng)元的活動(dòng)。我們不能夠做到這一點(diǎn),所以我們甚至連大腦最簡(jiǎn)單、最深入研究的部分都還遠(yuǎn)遠(yuǎn)沒有理解(Olshausen and Field,2005)。 神經(jīng)科學(xué)已經(jīng)給了我們依靠單一深度學(xué)習(xí)算法解決許多不同任務(wù)的理由。神經(jīng)學(xué)家們發(fā)現(xiàn),如果將雪貂的大腦重新連接,使視覺信號(hào)傳送到聽覺區(qū)域,它們可以學(xué)會(huì)用大腦的聽覺處理區(qū)域去“看”(Von Melchner et al.,2000)。這暗示著大多數(shù)哺乳動(dòng)物的大腦使用單一的算法就可以解決其大腦可以解決的大部分不同任務(wù)。在這個(gè)假設(shè)之前,機(jī)器學(xué)習(xí)研究是比較分散的,研究人員在不同的社群研究自然語言處理、計(jì)算機(jī)視覺、運(yùn)動(dòng)規(guī)劃和語音識(shí)別。如今,這些應(yīng)用社群仍然是獨(dú)立的,但是對(duì)于深度學(xué)習(xí)研究團(tuán)體來說,同時(shí)研究許多甚至所有這些應(yīng)用領(lǐng)域是很常見的。 我們能夠從神經(jīng)科學(xué)得到一些粗略的指南。僅通過計(jì)算單元之間的相互作用而變得智能的基本思想是受大腦啟發(fā)的。新認(rèn)知機(jī)(Fukushima,1980)受哺乳動(dòng)物視覺系統(tǒng)的結(jié)構(gòu)啟發(fā),引入了一個(gè)處理圖片的強(qiáng)大模型架構(gòu),它后來成為了現(xiàn)代卷積網(wǎng)絡(luò)的基礎(chǔ)(LeCun et al.,1998c)(參見第 9.10 節(jié))。目前大多數(shù)神經(jīng)網(wǎng)絡(luò)是基于一個(gè)稱為整流線性單元(rectified linear unit)的神經(jīng)單元模型。原始認(rèn)知機(jī)(Fukushima,1975)受我們關(guān)于大腦功能知識(shí)的啟發(fā),引入了一個(gè)更復(fù)雜的版本。簡(jiǎn)化的現(xiàn)代版通過吸收來自不同觀點(diǎn)的思想而形成,Nair and Hinton(2010b)和 Glorot et al.(2011a)援引神經(jīng)科學(xué)作為影響,Jarrett et al.(2009a)援引更多面向工程的影響。雖然神經(jīng)科學(xué)是靈感的重要來源,但它不需要被視為剛性指導(dǎo)。我們知道,真實(shí)的神經(jīng)元計(jì)算著與現(xiàn)代整流線性單元非常不同的函數(shù),但更接近真實(shí)神經(jīng)網(wǎng)絡(luò)的系統(tǒng)并沒有導(dǎo)致機(jī)器學(xué)習(xí)性能的提升。此外,雖然神經(jīng)科學(xué)已經(jīng)成功地啟發(fā)了一些神經(jīng)網(wǎng)絡(luò)架構(gòu),但我們對(duì)用于神經(jīng)科學(xué)的生物學(xué)習(xí)還沒有足夠多的了解,因此也就不能為訓(xùn)練這些架構(gòu)用的學(xué)習(xí)算法提供太多的借鑒。 媒體報(bào)道經(jīng)常強(qiáng)調(diào)深度學(xué)習(xí)與大腦的相似性。的確,深度學(xué)習(xí)研究者比其他機(jī)器學(xué)習(xí)領(lǐng)域(如核方法或貝葉斯統(tǒng)計(jì))的研究者更可能地引用大腦作為影響,但是大家不應(yīng)該認(rèn)為深度學(xué)習(xí)在嘗試模擬大腦。現(xiàn)代深度學(xué)習(xí)從許多領(lǐng)域獲取靈感,特別是應(yīng)用數(shù)學(xué)的基本內(nèi)容,如線性代數(shù)、概率論、信息論和數(shù)值優(yōu)化。盡管一些深度學(xué)習(xí)的研究人員引用神經(jīng)科學(xué)作為靈感的重要來源,然而其他學(xué)者完全不關(guān)心神經(jīng)科學(xué)。 值得注意的是,了解大腦是如何在算法層面上工作的嘗試確實(shí)存在且發(fā)展良好。這項(xiàng)嘗試主要被稱為“計(jì)算神經(jīng)科學(xué)”,并且是獨(dú)立于深度學(xué)習(xí)的領(lǐng)域。研究人員在兩個(gè)領(lǐng)域之間來回研究是很常見的。深度學(xué)習(xí)領(lǐng)域主要關(guān)注如何構(gòu)建計(jì)算機(jī)系統(tǒng),從而成功解決需要智能才能解決的任務(wù),而計(jì)算神經(jīng)科學(xué)領(lǐng)域主要關(guān)注構(gòu)建大腦如何真實(shí)工作的、比較精確的模型。 20 世紀(jì) 80 年代,神經(jīng)網(wǎng)絡(luò)研究的第二次浪潮在很大程度上是伴隨一個(gè)被稱為聯(lián)結(jié)主義(connectionism)或并行分布處理(parallel distributed processing)潮流而出現(xiàn)的(Rumelhart et al.,1986d;McClelland et al.,1995)。聯(lián)結(jié)主義是在認(rèn)知科學(xué)的背景下出現(xiàn)的。認(rèn)知科學(xué)是理解思維的跨學(xué)科途徑,即它融合多個(gè)不同的分析層次。20世紀(jì)80年代初期,大多數(shù)認(rèn)知科學(xué)家研究符號(hào)推理模型。盡管這很流行,但符號(hào)模型很難解釋大腦如何真正使用神經(jīng)元實(shí)現(xiàn)推理功能。聯(lián)結(jié)主義者開始研究真正基于神經(jīng)系統(tǒng)實(shí)現(xiàn)的認(rèn)知模型(Touretzky and Minton,1985),其中很多復(fù)蘇的想法可以追溯到心理學(xué)家Donald Hebb在20世紀(jì)40年代的工作(Hebb,1949)。 聯(lián)結(jié)主義的中心思想是,當(dāng)網(wǎng)絡(luò)將大量簡(jiǎn)單的計(jì)算單元連接在一起時(shí)可以實(shí)現(xiàn)智能行為。這種見解同樣適用于生物神經(jīng)系統(tǒng)中的神經(jīng)元,因?yàn)樗陀?jì)算模型中隱藏單元起著類似的作用。 在20世紀(jì)80年代的聯(lián)結(jié)主義期間形成的幾個(gè)關(guān)鍵概念在今天的深度學(xué)習(xí)中仍然是非常重要的。 其中一個(gè)概念是分布式表示(distributed representation)(Hinton et al.,1986)。其思想是:系統(tǒng)的每一個(gè)輸入都應(yīng)該由多個(gè)特征表示,并且每一個(gè)特征都應(yīng)該參與到多個(gè)可能輸入的表示。例如,假設(shè)我們有一個(gè)能夠識(shí)別紅色、綠色或藍(lán)色的汽車、卡車和鳥類的視覺系統(tǒng),表示這些輸入的其中一個(gè)方法是將 9個(gè)可能的組合:紅卡車、紅汽車、紅鳥、綠卡車等使用單獨(dú)的神經(jīng)元或隱藏單元激活。這需要9個(gè)不同的神經(jīng)元,并且每個(gè)神經(jīng)必須獨(dú)立地學(xué)習(xí)顏色和對(duì)象身份的概念。改善這種情況的方法之一是使用分布式表示,即用3個(gè)神經(jīng)元描述顏色,3個(gè)神經(jīng)元描述對(duì)象身份。這僅僅需要6個(gè)神經(jīng)元而不是9個(gè),并且描述紅色的神經(jīng)元能夠從汽車、卡車和鳥類的圖像中學(xué)習(xí)紅色,而不僅僅是從一個(gè)特定類別的圖像中學(xué)習(xí)。分布式表示的概念是本書的核心,我們將在第15章中更加詳細(xì)地描述。 聯(lián)結(jié)主義潮流的另一個(gè)重要成就是反向傳播在訓(xùn)練具有內(nèi)部表示的深度神經(jīng)網(wǎng)絡(luò)中的成功使用以及反向傳播算法的普及(Rumelhart et al.,1986c;Le Cun,1987)。這個(gè)算法雖然曾黯然失色且不再流行,但截至寫書之時(shí),它仍是訓(xùn)練深度模型的主導(dǎo)方法。 20 世紀(jì) 90 年代,研究人員在使用神經(jīng)網(wǎng)絡(luò)進(jìn)行序列建模的方面取得了重要進(jìn)展。Hochreiter(1991b)和 Bengio et al.(1994b)指出了對(duì)長序列進(jìn)行建模的一些根本性數(shù)學(xué)難題,這將在第 10.7 節(jié)中描述。Hochreiter 和 Schmidhuber(1997)引入長短期記憶(long shortterm memory,LSTM)網(wǎng)絡(luò)來解決這些難題。如今,LSTM在許多序列建模任務(wù)中廣泛應(yīng)用,包括Google的許多自然語言處理任務(wù)。 神經(jīng)網(wǎng)絡(luò)研究的第二次浪潮一直持續(xù)到20世紀(jì)90年代中期。基于神經(jīng)網(wǎng)絡(luò)和其他AI技術(shù)的創(chuàng)業(yè)公司開始尋求投資,其做法野心勃勃但不切實(shí)際。當(dāng)AI研究不能實(shí)現(xiàn)這些不合理的期望時(shí),投資者感到失望。同時(shí),機(jī)器學(xué)習(xí)的其他領(lǐng)域取得了進(jìn)步。比如,核方法(Boseret al.,1992;Cortes and Vapnik,1995;Sch?lkopf et al.,1999)和圖模型(Jordan,1998)都在很多重要任務(wù)上實(shí)現(xiàn)了很好的效果。這兩個(gè)因素導(dǎo)致了神經(jīng)網(wǎng)絡(luò)熱潮的第二次衰退,并一直持續(xù)到2007年。 在此期間,神經(jīng)網(wǎng)絡(luò)繼續(xù)在某些任務(wù)上獲得令人印象深刻的表現(xiàn)(Le Cun et al.,1998c;Bengio et al.,2001a)。加拿大高級(jí)研究所(CIFAR)通過其神經(jīng)計(jì)算和自適應(yīng)感知(NCAP)研究計(jì)劃幫助維持神經(jīng)網(wǎng)絡(luò)研究。該計(jì)劃聯(lián)合了分別由Geoffrey Hinton、Yoshua Bengio和Yann Le Cun領(lǐng)導(dǎo)的多倫多大學(xué)、蒙特利爾大學(xué)和紐約大學(xué)的機(jī)器學(xué)習(xí)研究小組。這個(gè)多學(xué)科的CIFARNCAP研究計(jì)劃還包括了神經(jīng)科學(xué)家、人類和計(jì)算機(jī)視覺專家。 在那個(gè)時(shí)候,人們普遍認(rèn)為深度網(wǎng)絡(luò)是難以訓(xùn)練的。現(xiàn)在我們知道,20世紀(jì)80年代就存在的算法能工作得非常好,但是直到2006年前后都沒有體現(xiàn)出來。這可能僅僅由于其計(jì)算代價(jià)太高,而以當(dāng)時(shí)可用的硬件難以進(jìn)行足夠的實(shí)驗(yàn)。 神經(jīng)網(wǎng)絡(luò)研究的第三次浪潮始于2006年的突破。Geoffrey Hinton表明名為“深度信念網(wǎng)絡(luò)”的神經(jīng)網(wǎng)絡(luò)可以使用一種稱為“貪婪逐層預(yù)訓(xùn)練”的策略來有效地訓(xùn)練(Hinton et al.,2006a),我們將在第15.1節(jié)中更詳細(xì)地描述。其他CIFAR附屬研究小組很快表明,同樣的策略可以被用來訓(xùn)練許多其他類型的深度網(wǎng)絡(luò)(Bengio and Le Cun,2007a;Ranzato et al.,2007b),并能系統(tǒng)地幫助提高在測(cè)試樣例上的泛化能力。神經(jīng)網(wǎng)絡(luò)研究的這一次浪潮普及了“深度學(xué)習(xí)”這一術(shù)語,強(qiáng)調(diào)研究者現(xiàn)在有能力訓(xùn)練以前不可能訓(xùn)練的比較深的神經(jīng)網(wǎng)絡(luò),并著力于深度的理論重要性上(Bengioand Le Cun,2007b;Delalleau and Bengio,2011;Pascanu et al., 2014a; Montufar et al., 2014)。此時(shí),深度神經(jīng)網(wǎng)絡(luò)已經(jīng)優(yōu)于與之競(jìng)爭(zhēng)的基于其他機(jī)器學(xué)習(xí)技術(shù)以及手工設(shè)計(jì)功能的AI系統(tǒng)。在寫這本書的時(shí)候,神經(jīng)網(wǎng)絡(luò)的第三次發(fā)展浪潮仍在繼續(xù),盡管深度學(xué)習(xí)的研究重點(diǎn)在這一段時(shí)間內(nèi)發(fā)生了巨大變化。第三次浪潮已開始著眼于新的無監(jiān)督學(xué)習(xí)技術(shù)和深度模型在小數(shù)據(jù)集的泛化能力,但目前更多的興趣點(diǎn)仍是比較傳統(tǒng)的監(jiān)督學(xué)習(xí)算法和深度模型充分利用大型標(biāo)注數(shù)據(jù)集的能力。
圖3 與日俱增的數(shù)據(jù)量。20世紀(jì)初,統(tǒng)計(jì)學(xué)家使用數(shù)百或數(shù)千的手動(dòng)制作的度量來研究數(shù)據(jù)集(Garson,1900;Gosset,1908;Anderson,1935;Fisher,1936)。20世紀(jì)50年代到80年代,受生物啟發(fā)的機(jī)器學(xué)習(xí)開拓者通常使用小的合成數(shù)據(jù)集,如低分辨率的字母位圖,設(shè)計(jì)為在低計(jì)算成本下表明神經(jīng)網(wǎng)絡(luò)能夠?qū)W習(xí)特定功能(Widrow and Hoff,1960;Rumelhart et al.,1986b)。20世紀(jì)80年代和90年代,機(jī)器學(xué)習(xí)變得更偏統(tǒng)計(jì),并開始利用包含成千上萬個(gè)樣本的更大數(shù)據(jù)集,如手寫掃描數(shù)字的MNIST數(shù)據(jù)集(如圖1.9所示)(Le Cun et al.,1998c)。在21世紀(jì)的第一個(gè)10年里,相同大小更復(fù)雜的數(shù)據(jù)集持續(xù)出現(xiàn),如CIFAR-10數(shù)據(jù)集(Krizhevsky and Hinton,2009)。在這10年結(jié)束和接下來的5年,明顯更大的數(shù)據(jù)集(包含數(shù)萬到數(shù)千萬的樣例)完全改變了深度學(xué)習(xí)可能實(shí)現(xiàn)的事。這些數(shù)據(jù)集包括公共Street View House Numbers數(shù)據(jù)集(Netzer et al.,2011)、各種版本的Image Net數(shù)據(jù)集(Deng et al.,2009,2010a;Russakovsky et al.,2014a)以及Sports-1M數(shù)據(jù)集(Karpathy et al.,2014)。在圖頂部,我們看到翻譯句子的數(shù)據(jù)集通常遠(yuǎn)大于其他數(shù)據(jù)集,如根據(jù)Canadian Hansard制作的IBM數(shù)據(jù)集(Brown et al.,1990)和WMT2014英法數(shù)據(jù)集(Schwenk,2014)
圖4 MNIST數(shù)據(jù)集的輸入樣例。“NIST”代表國家標(biāo)準(zhǔn)和技術(shù)研究所(National Institute of Standards and Technology),是最初收集這些數(shù)據(jù)的機(jī)構(gòu)。“M”代表“修改的(Modified)”,為更容易地與機(jī)器學(xué)習(xí)算法一起使用,數(shù)據(jù)已經(jīng)過預(yù)處理。MNIST數(shù)據(jù)集包括手寫數(shù)字的掃描和相關(guān)標(biāo)簽(描述每個(gè)圖像中包含0~9中哪個(gè)數(shù)字)。這個(gè)簡(jiǎn)單的分類問題是深度學(xué)習(xí)研究中最簡(jiǎn)單和最廣泛使用的測(cè)試之一。盡管現(xiàn)代技術(shù)很容易解決這個(gè)問題,它仍然很受歡迎。Geoffrey Hinton將其描述為“機(jī)器學(xué)習(xí)的果蠅”,這意味著機(jī)器學(xué)習(xí)研究人員可以在受控的實(shí)驗(yàn)室條件下研究他們的算法,就像生物學(xué)家經(jīng)常研究果蠅一樣
圖5 與日俱增的每個(gè)神經(jīng)元的連接數(shù)。最初,人工神經(jīng)網(wǎng)絡(luò)中神經(jīng)元之間的連接數(shù)受限于硬件能力。而現(xiàn)在,神經(jīng)元之間的連接數(shù)大多是出于設(shè)計(jì)考慮。一些人工神經(jīng)網(wǎng)絡(luò)中每個(gè)神經(jīng)元的連接數(shù)與貓一樣多,并且對(duì)于其他神經(jīng)網(wǎng)絡(luò)來說,每個(gè)神經(jīng)元的連接數(shù)與較小哺乳動(dòng)物(如小鼠)一樣多,這種情況是非常普遍的。甚至人類大腦每個(gè)神經(jīng)元的連接數(shù)也沒有過高的數(shù)量。生物神經(jīng)網(wǎng)絡(luò)規(guī)模來自Wikipedia(2015) 1.自適應(yīng)線性單元(Widrow and Hoff,1960);2.神經(jīng)認(rèn)知機(jī)(Fukushima,1980);3.GPU-加速卷積網(wǎng)絡(luò)(Chellapilla et al.,2006);4.深度玻爾茲曼機(jī)(Salakhutdinov and Hinton,2009a);5.無監(jiān)督卷積網(wǎng)絡(luò)(Jarrett et al.,2009b);6.GPU- 加速多層感知機(jī)(Ciresan et al.,2010);7.分布式自編碼器(Le et al.,2012);8.Multi-GPU 卷積網(wǎng)絡(luò)(Krizhevsky et al.,2012a);9.COTSHPC無監(jiān)督卷積網(wǎng)絡(luò)(Coates et al.,2013);10.Goog Le Net(Szegedy et al.,2014a) 如圖1.11所示,就神經(jīng)元的總數(shù)目而言,直到最近神經(jīng)網(wǎng)絡(luò)都是驚人的小。自從隱藏單元引入以來,人工神經(jīng)網(wǎng)絡(luò)的規(guī)模大約每2.4年擴(kuò)大一倍。這種增長是由更大內(nèi)存、更快的計(jì)算機(jī)和更大的可用數(shù)據(jù)集驅(qū)動(dòng)的。更大的網(wǎng)絡(luò)能夠在更復(fù)雜的任務(wù)中實(shí)現(xiàn)更高的精度。這種趨勢(shì)看起來將持續(xù)數(shù)十年。除非有能力迅速擴(kuò)展新技術(shù),否則至少要到21世紀(jì)50年代,人工神經(jīng)網(wǎng)絡(luò)才能具備與人腦相同數(shù)量級(jí)的神經(jīng)元。生物神經(jīng)元表示的功能可能比目前的人工神經(jīng)元所表示的更復(fù)雜,因此生物神經(jīng)網(wǎng)絡(luò)可能比圖中描繪的甚至要更大。
圖6 與日俱增的神經(jīng)網(wǎng)絡(luò)規(guī)模。自從引入隱藏單元,人工神經(jīng)網(wǎng)絡(luò)的規(guī)模大約每2.4年翻一倍。生物神經(jīng)網(wǎng)絡(luò)規(guī)模來自Wikipedia(2015) 1.感知機(jī)(Rosenblatt,1958,1962);2.自適應(yīng)線性單元(Widrow and Hoff,1960);3.神經(jīng)認(rèn)知機(jī)(Fukushima,1980);4.早期后向傳播網(wǎng)絡(luò)(Rumelhart et al.,1986b);5.用于語音識(shí)別的循環(huán)神經(jīng)網(wǎng)絡(luò)(Robinson and Fallside,1991);6.用于語音識(shí)別的多層感知機(jī)(Bengio et al.,1991);7.均勻場(chǎng)sigmoid信念網(wǎng)絡(luò)(Saul et al.,1996);8.Le Net-5(Le Cun et al.,1998c);9.回聲狀態(tài)網(wǎng)絡(luò)(Jaeger and Haas,2004);10.深度信念網(wǎng)絡(luò)(Hinton et al.,2006a);11.GPU-加速卷積網(wǎng)絡(luò)(Chellapilla et al.,2006);12.深度玻爾茲曼機(jī)(Salakhutdinov and Hinton,2009a);13.GPU-加速深度信念網(wǎng)絡(luò)(Raina et al.,2009a);14.無監(jiān)督卷積網(wǎng)絡(luò)(Jarrett et al.,2009b);15.GPU-加速多層感知機(jī)(Ciresan et al.,2010);16.OMP-1網(wǎng)絡(luò)(Coates and Ng,2011);17.分布式自編碼器(Le et al.,2012);18.Multi-GPU卷積網(wǎng)絡(luò)(Krizhevsky et al.,2012a);19.COTSHPC無監(jiān)督卷積網(wǎng)絡(luò)(Coates et al.,2013);20.Goog Le Net(Szegedy et al.,2014a) 現(xiàn)在看來,神經(jīng)元數(shù)量比一個(gè)水蛭還少的神經(jīng)網(wǎng)絡(luò)不能解決復(fù)雜的人工智能問題,這是不足為奇的。即使現(xiàn)在的網(wǎng)絡(luò),從計(jì)算系統(tǒng)角度來看它可能相當(dāng)大,但實(shí)際上它比相對(duì)原始的脊椎動(dòng)物(如青蛙)的神經(jīng)系統(tǒng)還要小。 由于更快的CPU、通用GPU的出現(xiàn)(在第12.1.2節(jié)中討論)、更快的網(wǎng)絡(luò)連接和更好的分布式計(jì)算的軟件基礎(chǔ)設(shè)施,模型規(guī)模隨著時(shí)間的推移不斷增加是深度學(xué)習(xí)歷史中最重要的趨勢(shì)之一。人們普遍預(yù)計(jì)這種趨勢(shì)將很好地持續(xù)到未來。
圖7 日益降低的錯(cuò)誤率。由于深度網(wǎng)絡(luò)達(dá)到了在ImageNet大規(guī)模視覺識(shí)別挑戰(zhàn)中競(jìng)爭(zhēng)所必需的規(guī)模,它們每年都能贏得勝利,并且產(chǎn)生越來越低的錯(cuò)誤率。數(shù)據(jù)來源于Russakovsky et al.(2014b)和He et al.(2015) 深度學(xué)習(xí)也對(duì)語音識(shí)別產(chǎn)生了巨大影響。語音識(shí)別在20世紀(jì)90年代得到提高后,直到約2000年都停滯不前。深度學(xué)習(xí)的引入(Dahl et al.,2010;Deng et al.,2010b;Seide et al.,2011;Hinton et al.,2012a)使得語音識(shí)別錯(cuò)誤率陡然下降,有些錯(cuò)誤率甚至降低了一半。我們將在第12.3節(jié)更詳細(xì)地探討這個(gè)歷史。 深度網(wǎng)絡(luò)在行人檢測(cè)和圖像分割中也取得了引人注目的成功(Sermanet et al.,2013;Farabet et al.,2013;Couprie et al.,2013),并且在交通標(biāo)志分類上取得了超越人類的表現(xiàn)(Ciresan et al.,2012)。 在深度網(wǎng)絡(luò)的規(guī)模和精度有所提高的同時(shí),它們可以解決的任務(wù)也日益復(fù)雜。Goodfellow et al.(2014d)表明,神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)輸出描述圖像的整個(gè)字符序列,而不是僅僅識(shí)別單個(gè)對(duì)象。此前,人們普遍認(rèn)為,這種學(xué)習(xí)需要對(duì)序列中的單個(gè)元素進(jìn)行標(biāo)注(Gulcehre and Bengio,2013)。循環(huán)神經(jīng)網(wǎng)絡(luò),如之前提到的LSTM序列模型,現(xiàn)在用于對(duì)序列和其他序列之間的關(guān)系進(jìn)行建模,而不是僅僅固定輸入之間的關(guān)系。這種序列到序列的學(xué)習(xí)似乎引領(lǐng)著另一個(gè)應(yīng)用的顛覆性發(fā)展,即機(jī)器翻譯(Sutskever et al.,2014;Bahdanau et al.,2015)。 這種復(fù)雜性日益增加的趨勢(shì)已將其推向邏輯結(jié)論,即神經(jīng)圖靈機(jī)(Graves et al.,2014)的引入,它能學(xué)習(xí)讀取存儲(chǔ)單元和向存儲(chǔ)單元寫入任意內(nèi)容。這樣的神經(jīng)網(wǎng)絡(luò)可以從期望行為的樣本中學(xué)習(xí)簡(jiǎn)單的程序。例如,從雜亂和排好序的樣本中學(xué)習(xí)對(duì)一系列數(shù)進(jìn)行排序。這種自我編程技術(shù)正處于起步階段,但原則上未來可以適用于幾乎所有的任務(wù)。 深度學(xué)習(xí)的另一個(gè)最大的成就是其在強(qiáng)化學(xué)習(xí)(reinforcement learning)領(lǐng)域的擴(kuò)展。在強(qiáng)化學(xué)習(xí)中,一個(gè)自主的智能體必須在沒有人類操作者指導(dǎo)的情況下,通過試錯(cuò)來學(xué)習(xí)執(zhí)行任務(wù)。DeepMind表明,基于深度學(xué)習(xí)的強(qiáng)化學(xué)習(xí)系統(tǒng)能夠?qū)W會(huì)玩Atari視頻游戲,并在多種任務(wù)中可與人類匹敵(Mnih et al.,2015)。深度學(xué)習(xí)也顯著改善了機(jī)器人強(qiáng)化學(xué)習(xí)的性能(Finn et al.,2015)。 許多深度學(xué)習(xí)應(yīng)用都是高利潤的。現(xiàn)在深度學(xué)習(xí)被許多頂級(jí)的技術(shù)公司使用,包括Google、Microsoft、Facebook、IBM、Baidu、Apple、Adobe、Netflix、NVIDIA和NEC等。 深度學(xué)習(xí)的進(jìn)步也嚴(yán)重依賴于軟件基礎(chǔ)架構(gòu)的進(jìn)展。軟件庫如Theano(Bergstra et al.,2010a;Bastien et al.,2012a)、PyLearn2(Goodfellow et al.,2013e)、Torch(Collobert et al.,2011b)、Dist Belief(Dean et al.,2012)、Caffe(Jia,2013)、MXNet(Chen et al.,2015)和Tensor-Flow(Abadi et al.,2015)都能支持重要的研究項(xiàng)目或商業(yè)產(chǎn)品。 深度學(xué)習(xí)也為其他科學(xué)做出了貢獻(xiàn)。用于對(duì)象識(shí)別的現(xiàn)代卷積網(wǎng)絡(luò)為神經(jīng)科學(xué)家們提供了可以研究的視覺處理模型(DiCarlo,2013)。深度學(xué)習(xí)也為處理海量數(shù)據(jù)以及在科學(xué)領(lǐng)域做出有效的預(yù)測(cè)提供了非常有用的工具。它已成功地用于預(yù)測(cè)分子如何相互作用、從而幫助制藥公司設(shè)計(jì)新的藥物(Dahl et al.,2014),搜索亞原子粒子(Baldi et al.,2014),以及自動(dòng)解析用于構(gòu)建人腦三維圖的顯微鏡圖像(Knowles-Barley et al.,2014)等多個(gè)場(chǎng)合。我們期待深度學(xué)習(xí)未來能夠出現(xiàn)在越來越多的科學(xué)領(lǐng)域中。 總之,深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一種方法。在過去幾十年的發(fā)展中,它大量借鑒了我們關(guān)于人腦、統(tǒng)計(jì)學(xué)和應(yīng)用數(shù)學(xué)的知識(shí)。近年來,得益于更強(qiáng)大的計(jì)算機(jī)、更大的數(shù)據(jù)集和能夠訓(xùn)練更深網(wǎng)絡(luò)的技術(shù),深度學(xué)習(xí)的普及性和實(shí)用性都有了極大的發(fā)展。未來幾年,深度學(xué)習(xí)更是充滿了進(jìn)一步提高并應(yīng)用到新領(lǐng)域的挑戰(zhàn)和機(jī)遇。
ISBN:9787115461476 定價(jià):168元
“花書”《深度學(xué)習(xí)》AI圣經(jīng)! 全球知名專家Ian Goodfellow、Yoshua Bengio和Aaron Courville撰寫。 美亞人工智能和機(jī)器學(xué)習(xí)領(lǐng)域排名第一的經(jīng)典暢銷書。 深度學(xué)習(xí)領(lǐng)域奠基性的圖書產(chǎn)品! 全彩印刷。
內(nèi)容簡(jiǎn)介 《深度學(xué)習(xí)》由全球知名的三位專家Ian Goodfellow、Yoshua Bengio 和Aaron Courville撰寫,是深度學(xué)習(xí)領(lǐng)域奠基性的經(jīng)典教材。全書的內(nèi)容包括 3 個(gè)部分:第 1 部分介紹基本的數(shù)學(xué)工具和機(jī)器學(xué)習(xí)的概念,它們是深度學(xué)習(xí)的預(yù)備知識(shí);第 2 部分系統(tǒng)深入地講解現(xiàn)今已成熟的深度學(xué)習(xí)方法和技術(shù);第 3 部分討論某些具有前瞻性的方向和想法,它們被公認(rèn)為是深度學(xué)習(xí)未來的研究重點(diǎn)。 - END -
今天,深度學(xué)習(xí)已經(jīng)成為了人工智能技術(shù)領(lǐng)域最重要的技術(shù)之一。在最近數(shù)年中,計(jì)算機(jī)視覺、語音識(shí)別、自然語言處理和機(jī)器人取得的爆炸性進(jìn)展都離不開深度學(xué)習(xí)。
三人在人工智能領(lǐng)域的成就數(shù)不勝數(shù),但是ACM依然列數(shù)了三位大咖最值得被記住的成就,我們也在此重新回顧他們的故事,簡(jiǎn)直就是一部人工智能/深度學(xué)習(xí)的發(fā)家史。
圖靈獎(jiǎng)(Turing Award),全稱“A.M. 圖靈獎(jiǎng)(A.M Turing Award)” ,由美國計(jì)算機(jī)協(xié)會(huì)(ACM)于1966年設(shè)立,專門獎(jiǎng)勵(lì)那些對(duì)計(jì)算機(jī)事業(yè)作出重要貢獻(xiàn)的個(gè)人 。其名稱取自計(jì)算機(jī)科學(xué)的先驅(qū)、英國科學(xué)家艾倫·麥席森·圖靈(Alan M. Turing) 。它是計(jì)算機(jī)界最負(fù)盛名、最崇高的一個(gè)獎(jiǎng)項(xiàng),有“計(jì)算機(jī)界的諾貝爾獎(jiǎng)”之稱 。
圖靈獎(jiǎng)設(shè)獎(jiǎng)初期為20萬美元,1989年起增到25萬美元,獎(jiǎng)金通常由計(jì)算機(jī)界的一些大企業(yè)提供(通過與ACM簽訂協(xié)議)。目前圖靈獎(jiǎng)由Google公司贊助,獎(jiǎng)金為1,000,000美元。
01 三位作者在深度學(xué)習(xí)領(lǐng)域貢獻(xiàn) 《深度學(xué)習(xí)》作者 Yoshua Bengio 序列的概率模型:在 20 世紀(jì) 90 年代,Bengio 將神經(jīng)網(wǎng)絡(luò)與序列的概率模型相結(jié)合,例如隱馬爾可夫模型。這些想法被納入 AT&T / NCR 用于閱讀手寫支票中,被認(rèn)為是 20 世紀(jì) 90 年代神經(jīng)網(wǎng)絡(luò)研究的巔峰之作。現(xiàn)代深度學(xué)習(xí)語音識(shí)別系統(tǒng)也是這些概念的擴(kuò)展。
高維詞匯嵌入和關(guān)注:2000 年,Bengio 撰寫了具有里程碑意義的論文“A Neural Probabilistic Language Model”,它引入了高維詞向量作為詞義的表示。Bengio 的見解對(duì)自然語言處理任務(wù)產(chǎn)生了巨大而持久的影響,包括語言翻譯、問答和視覺問答。他的團(tuán)隊(duì)還引入了注意力機(jī)制,這種機(jī)制促使了機(jī)器翻譯的突破,并構(gòu)成了深度學(xué)習(xí)的序列處理的關(guān)鍵組成部分。
生成性對(duì)抗網(wǎng)絡(luò):自 2010 年以來,Bengio 關(guān)于生成性深度學(xué)習(xí)的論文,特別是與 Ian Goodfellow 共同開發(fā)的生成性對(duì)抗網(wǎng)絡(luò)(GAN),引發(fā)了計(jì)算機(jī)視覺和計(jì)算機(jī)圖形學(xué)的革命。
Geoffrey Hinton 反向傳播:在 1986 年與 David Rumelhart 和 Ronald Williams 共同撰寫的 “Learning Internal Representations by Error Propagation” 一文中,Hinton 證明了反向傳播算法允許神經(jīng)網(wǎng)絡(luò)發(fā)現(xiàn)自己的數(shù)據(jù)內(nèi)部表示,這使得使用神經(jīng)網(wǎng)絡(luò)成為可能網(wǎng)絡(luò)解決以前被認(rèn)為超出其范圍的問題。如今,反向傳播算法是大多數(shù)神經(jīng)網(wǎng)絡(luò)的標(biāo)準(zhǔn)。
玻爾茲曼機(jī)(Boltzmann Machines):1983 年,Hinton 與 Terrence Sejnowski 一起發(fā)明了玻爾茲曼機(jī),這是第一個(gè)能夠?qū)W習(xí)不屬于輸入或輸出的神經(jīng)元內(nèi)部表示的神經(jīng)網(wǎng)絡(luò)之一。
卷積神經(jīng)網(wǎng)絡(luò)的改進(jìn):2012 年,Hinton 和他的學(xué)生 Alex Krizhevsky 以及 Ilya Sutskever 通過 Rectified Linear Neurons 和 Dropout Regularization 改進(jìn)了卷積神經(jīng)網(wǎng)絡(luò),并在著名的 ImageNet 評(píng)測(cè)中將對(duì)象識(shí)別的錯(cuò)誤率減半,在計(jì)算機(jī)視覺領(lǐng)域掀起一場(chǎng)革命。
Yann LeCun 卷積神經(jīng)網(wǎng)絡(luò):在 20 世紀(jì) 80 年代,LeCun 研發(fā)了卷積神經(jīng)網(wǎng)絡(luò),現(xiàn)已成為該領(lǐng)域的基本理論基礎(chǔ)。其讓深度學(xué)習(xí)更有效。在 20 世紀(jì) 80 年代后期,多倫多大學(xué)和貝爾實(shí)驗(yàn)室工作期間,LeCun 是第一個(gè)在手寫數(shù)字圖像上訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)系統(tǒng)的人。如今,卷積神經(jīng)網(wǎng)絡(luò)是計(jì)算機(jī)視覺以及語音識(shí)別、語音合成、圖像合成和自然語言處理的行業(yè)標(biāo)準(zhǔn)。它們用于各種應(yīng)用,包括自動(dòng)駕駛、醫(yī)學(xué)圖像分析、語音激活助手和信息過濾。
改進(jìn)反向傳播算法:LeCun 提出了一個(gè)早期的反向傳播算法 backprop,并根據(jù)變分原理對(duì)其進(jìn)行了簡(jiǎn)潔的推導(dǎo)。他的工作讓加快了反向傳播算,包括描述兩種加速學(xué)習(xí)時(shí)間的簡(jiǎn)單方法。
拓寬神經(jīng)網(wǎng)絡(luò)的視野:LeCun 還將神經(jīng)網(wǎng)絡(luò)作為可以完成更為廣泛任務(wù)的計(jì)算模型,其早期工作現(xiàn)已成為 AI 的基礎(chǔ)概念。例如,在圖像識(shí)別領(lǐng)域,他研究了如何在神經(jīng)網(wǎng)絡(luò)中學(xué)習(xí)分層特征表示,這個(gè)理念現(xiàn)在通常用于許多識(shí)別任務(wù)中。與 LéonBottou 一起,他還提出了學(xué)習(xí)系統(tǒng)可以構(gòu)建為復(fù)雜的模塊網(wǎng)絡(luò),其中通過自動(dòng)區(qū)分來執(zhí)行反向傳播,目前在每個(gè)現(xiàn)代深度學(xué)習(xí)軟件中得到使用。他們還提出了可以操作結(jié)構(gòu)化數(shù)據(jù)的深度學(xué)習(xí)架構(gòu),例如圖形。
02 《深度學(xué)習(xí)》講了什么? 深度學(xué)習(xí)這個(gè)術(shù)語自2006 年被正式提出后,在最近10 年得到了巨大發(fā)展。它使人工智能 (AI) 產(chǎn)生了革命性的突破,讓我們切實(shí)地領(lǐng)略到人工智能給人類生活帶來改變的潛力。2016 年12 月,MIT 出版社出版了Ian Goodfellow、Yoshua Bengio 和Aaron Courville 三位學(xué)者撰 寫的《Deep Learning》一書。三位作者一直耕耘于機(jī)器學(xué)習(xí)領(lǐng)域的前沿,引領(lǐng)了深度學(xué)習(xí)的發(fā)展潮流,是深度學(xué)習(xí)眾多方法的主要貢獻(xiàn)者。該書正應(yīng)其時(shí),一經(jīng)出版就風(fēng)靡全球。
該書包括3 個(gè)部分,第1 部分介紹基本的數(shù)學(xué)工具和機(jī)器學(xué)習(xí)的概念,它們是深度學(xué)習(xí) 的預(yù)備知識(shí)。第2 部分系統(tǒng)深入地講解現(xiàn)今已成熟的深度學(xué)習(xí)方法和技術(shù)。第3 部分討論某 些具有前瞻性的方向和想法,它們被公認(rèn)為是深度學(xué)習(xí)未來的研究重點(diǎn)。因此,該書適用于 不同層次的讀者。我本人在閱讀該書時(shí)受到啟發(fā)良多,大有裨益,并采用該書作為教材在北 京大學(xué)講授深度學(xué)習(xí)課程。 這是一本涵蓋深度學(xué)習(xí)技術(shù)細(xì)節(jié)的教科書,它告訴我們深度學(xué)習(xí)集技術(shù)、科學(xué)與藝術(shù)于 一體,牽涉統(tǒng)計(jì)、優(yōu)化、矩陣、算法、編程、分布式計(jì)算等多個(gè)領(lǐng)域。書中同時(shí)也蘊(yùn)含了作者 對(duì)深度學(xué)習(xí)的理解和思考,處處閃爍著深刻的思想,耐人回味。第1 章關(guān)于深度學(xué)習(xí)的思想、 歷史發(fā)展等論述尤為透徹而精辟。 作者在書中寫到:“人工智能的真正挑戰(zhàn)在于解決那些對(duì)人來說很容易執(zhí)行、但很難形式 化描述的任務(wù),比如識(shí)別人們所說的話或圖像中的臉。對(duì)于這些問題,我們?nèi)祟愅梢詰{ 直覺輕易地解決”。為了應(yīng)對(duì)這些挑戰(zhàn),他們提出讓計(jì)算機(jī)從經(jīng)驗(yàn)中學(xué)習(xí),并根據(jù)層次化的概 念體系來理解世界,而每個(gè)概念通過與某些相對(duì)簡(jiǎn)單的概念之間的關(guān)系來定義。由此,作者 給出了深度學(xué)習(xí)的定義:“層次化的概念讓計(jì)算機(jī)構(gòu)建較簡(jiǎn)單的概念來學(xué)習(xí)復(fù)雜概念。如果繪 制出表示這些概念如何建立在彼此之上的一幅圖,我們將得到一張`深'(層次很多) 的圖。由 此,我們稱這種方法為AI 深度學(xué)習(xí)(deep learning)”。 《深度學(xué)習(xí)》中文版從引進(jìn)版權(quán)到正式出版歷經(jīng)三年,中文版的推出填補(bǔ)了目前國內(nèi)缺乏深度學(xué)習(xí)綜合性教科書的空白。該書從淺入深介紹了基礎(chǔ)數(shù)學(xué)知識(shí)、機(jī)器學(xué)習(xí)經(jīng)驗(yàn)以及現(xiàn)階段深度學(xué)習(xí)的理論和發(fā)展,它能幫助人工智能技術(shù)愛好者和從業(yè)人員在三位專家學(xué)者的思維帶領(lǐng)下全方位了解深度學(xué)習(xí)。該書一經(jīng)推出變橫掃暢銷榜。 這是一本教科書,又不只是一本教科書,任何對(duì)深度學(xué)習(xí)感興趣的讀者,閱讀本書都會(huì)受益。除了學(xué)習(xí)機(jī)器學(xué)習(xí)的大學(xué)生,沒有機(jī)器學(xué)習(xí)或統(tǒng)計(jì)背景的軟件工程師也可以通過本書快速補(bǔ)充相關(guān)知識(shí),并在他們的產(chǎn)品或平臺(tái)中使用。 本書最大的一個(gè)特點(diǎn)是介紹深度學(xué)習(xí)算法的本質(zhì),脫離具體代碼實(shí)現(xiàn)給出算法背后的邏輯,不寫代碼的人也完全可以看。本書的另一個(gè)特點(diǎn)是,為了方便讀者閱讀,作者特別繪制了本書的內(nèi)容組織結(jié)構(gòu)圖,指出了全書20章內(nèi)容之間的相關(guān)關(guān)系,如圖所示。讀者可以根據(jù)自己的背景或需要,隨意挑選閱讀。
圖1 《深度學(xué)習(xí)》中文版內(nèi)容組織結(jié)構(gòu)圖。從一章到另一章的箭頭表示前一章是理解后一章的必備內(nèi)容。
03 《深度學(xué)習(xí)》的歷史趨勢(shì) 通過歷史背景了解深度學(xué)習(xí)是最簡(jiǎn)單的方式。這里我們僅指出深度學(xué)習(xí)的幾個(gè)關(guān)鍵趨勢(shì),而不是提供其詳細(xì)的歷史:
- 深度學(xué)習(xí)有著悠久而豐富的歷史,但隨著許多不同哲學(xué)觀點(diǎn)的漸漸消逝,與之對(duì)應(yīng)的名稱也漸漸塵封。
- 隨著可用的訓(xùn)練數(shù)據(jù)量不斷增加,深度學(xué)習(xí)變得更加有用。
- 隨著時(shí)間的推移,針對(duì)深度學(xué)習(xí)的計(jì)算機(jī)軟硬件基礎(chǔ)設(shè)施都有所改善,深度學(xué)習(xí)模型的規(guī)模也隨之增長。
- 隨著時(shí)間的推移,深度學(xué)習(xí)已經(jīng)解決日益復(fù)雜的應(yīng)用,并且精度不斷提高。
神經(jīng)網(wǎng)絡(luò)的眾多名稱和命運(yùn)變遷 事實(shí)上,深度學(xué)習(xí)的歷史可以追溯到20世紀(jì)40年代。深度學(xué)習(xí)看似是一個(gè)全新的領(lǐng)域,只不過因?yàn)樵谀壳傲餍械那皫啄晁€是相對(duì)冷門的,同時(shí)也因?yàn)樗毁x予了許多不同的名稱(其中大部分已經(jīng)不再使用),最近才成為眾所周知的“深度學(xué)習(xí)”。這個(gè)領(lǐng)域已經(jīng)更換了很多名稱,它反映了不同的研究人員和不同觀點(diǎn)的影響。 迄今為止深度學(xué)習(xí)已經(jīng)經(jīng)歷了3次發(fā)展浪潮:20世紀(jì)40年代到60年代,深度學(xué)習(xí)的雛形出現(xiàn)在控制論(cybernetics)中;20世紀(jì) 80年代到 90年代,深度學(xué)習(xí)表現(xiàn)為聯(lián)結(jié)主義(connectionism);直到 2006 年,才真正以深度學(xué)習(xí)之名復(fù)興。圖1給出了定量的展示。 我們今天知道的一些最早的學(xué)習(xí)算法,旨在模擬生物學(xué)習(xí)的計(jì)算模型,即大腦怎樣學(xué)習(xí)或?yàn)槭裁茨軐W(xué)習(xí)的模型。其結(jié)果是深度學(xué)習(xí)以人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)之名而淡去。彼時(shí),深度學(xué)習(xí)模型被認(rèn)為是受生物大腦(無論人類大腦或其他動(dòng)物的大腦)所啟發(fā)而設(shè)計(jì)出來的系統(tǒng)。盡管有些機(jī)器學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)有時(shí)被用來理解大腦功能(Hinton and Shallice,1991),但它們一般都沒有設(shè)計(jì)成生物功能的真實(shí)模型。深度學(xué)習(xí)的神經(jīng)觀點(diǎn)受兩個(gè)主要思想啟發(fā):一個(gè)想法是,大腦作為例子證明智能行為是可能的,因此,概念上,建立智能的直接途徑是逆向大腦背后的計(jì)算原理,并復(fù)制其功能;另一種看法是,理解大腦和人類智能背后的原理也非常有趣,因此機(jī)器學(xué)習(xí)模型除了解決工程應(yīng)用的能力,如果能讓人類對(duì)這些基本的科學(xué)問題有進(jìn)一步的認(rèn)識(shí),也將會(huì)很有用。
圖2 根據(jù)Google圖書中短語“控制論”“聯(lián)結(jié)主義”或“神經(jīng)網(wǎng)絡(luò)”頻率衡量的人工神經(jīng)網(wǎng)絡(luò)研究的歷史浪潮(圖中展示了3次浪潮的前兩次,第3次最近才出現(xiàn))。第1次浪潮開始于20世紀(jì)40年代到20世紀(jì)60年代的控制論,隨著生物學(xué)習(xí)理論的發(fā)展(Mc Culloch and Pitts,1943;Hebb,1949)和第一個(gè)模型的實(shí)現(xiàn)(如感知機(jī)(Rosenblatt,1958)),能實(shí)現(xiàn)單個(gè)神經(jīng)元的訓(xùn)練。第2次浪潮開始于1980—1995年間的聯(lián)結(jié)主義方法,可以使用反向傳播(Rumelhart et al.,1986a)訓(xùn)練具有一兩個(gè)隱藏層的神經(jīng)網(wǎng)絡(luò)。當(dāng)前第3次浪潮,也就是深度學(xué)習(xí),大約始于2006年(Hinton et al.,2006a;Bengio et al.,2007a;Ranzato et al.,2007a),并且于2016年以圖書的形式出現(xiàn)。另外,前兩次浪潮類似地出現(xiàn)在書中的時(shí)間比相應(yīng)的科學(xué)活動(dòng)晚得多 現(xiàn)代術(shù)語“深度學(xué)習(xí)”超越了目前機(jī)器學(xué)習(xí)模型的神經(jīng)科學(xué)觀點(diǎn)。它訴諸于學(xué)習(xí)多層次組合這一更普遍的原理,這一原理也可以應(yīng)用于那些并非受神經(jīng)科學(xué)啟發(fā)的機(jī)器學(xué)習(xí)框架。 現(xiàn)代深度學(xué)習(xí)最早的前身是從神經(jīng)科學(xué)的角度出發(fā)的簡(jiǎn)單線性模型。這些模型設(shè)計(jì)為使用一組n個(gè)輸入x1,…,xn,并將它們與一個(gè)輸出y相關(guān)聯(lián)。這些模型希望學(xué)習(xí)一組權(quán)重w1,…,wn,并計(jì)算它們的輸出f(x,w)=x1w1+…+xnwn。如圖1.7所示,第一次神經(jīng)網(wǎng)絡(luò)研究浪潮稱為控制論。 McCulloch-Pitts 神經(jīng)元(McCulloch and Pitts,1943)是腦功能的早期模型。該線性模型通過檢驗(yàn)函數(shù) f(x,w)的正負(fù)來識(shí)別兩種不同類別的輸入。顯然,模型的權(quán)重需要正確設(shè)置后才能使模型的輸出對(duì)應(yīng)于期望的類別。這些權(quán)重可以由操作人員設(shè)定。20 世紀(jì) 50 年代,感知機(jī)(Rosenblatt,1956,1958)成為第一個(gè)能根據(jù)每個(gè)類別的輸入樣本來學(xué)習(xí)權(quán)重的模型。大約在同一時(shí)期,自適應(yīng)線性單元(adaptive linear element,ADALINE)簡(jiǎn)單地返回函數(shù)f(x)本身的值來預(yù)測(cè)一個(gè)實(shí)數(shù),并且它還可以學(xué)習(xí)從數(shù)據(jù)預(yù)測(cè)這些數(shù)。 這些簡(jiǎn)單的學(xué)習(xí)算法大大影響了機(jī)器學(xué)習(xí)的現(xiàn)代景象。用于調(diào)節(jié)ADALINE權(quán)重的訓(xùn)練算法是被稱為隨機(jī)梯度下降(stochastic gradient descent)的一種特例。稍加改進(jìn)后的隨機(jī)梯度下降算法仍然是當(dāng)今深度學(xué)習(xí)的主要訓(xùn)練算法。 基于感知機(jī)和 ADALINE中使用的函數(shù) f(x,w)的模型稱為線性模型(linear model)。盡管在許多情況下,這些模型以不同于原始模型的方式進(jìn)行訓(xùn)練,但仍是目前最廣泛使用的機(jī)器學(xué)習(xí)模型。 線性模型有很多局限性。最著名的是,它們無法學(xué)習(xí)異或(XOR)函數(shù),即f([0,1],w)=1和f([1,0],w)=1,但f([1,1],w)=0和f([0,0],w)=0。觀察到線性模型這個(gè)缺陷的批評(píng)者對(duì)受生物學(xué)啟發(fā)的學(xué)習(xí)普遍地產(chǎn)生了抵觸(Minsky and Papert,1969)。這導(dǎo)致了神經(jīng)網(wǎng)絡(luò)熱潮的第一次大衰退。 現(xiàn)在,神經(jīng)科學(xué)被視為深度學(xué)習(xí)研究的一個(gè)重要靈感來源,但它已不再是該領(lǐng)域的主要指導(dǎo)。 如今神經(jīng)科學(xué)在深度學(xué)習(xí)研究中的作用被削弱,主要原因是我們根本沒有足夠的關(guān)于大腦的信息來作為指導(dǎo)去使用它。要獲得對(duì)被大腦實(shí)際使用算法的深刻理解,我們需要有能力同時(shí)監(jiān)測(cè)(至少是)數(shù)千相連神經(jīng)元的活動(dòng)。我們不能夠做到這一點(diǎn),所以我們甚至連大腦最簡(jiǎn)單、最深入研究的部分都還遠(yuǎn)遠(yuǎn)沒有理解(Olshausen and Field,2005)。 神經(jīng)科學(xué)已經(jīng)給了我們依靠單一深度學(xué)習(xí)算法解決許多不同任務(wù)的理由。神經(jīng)學(xué)家們發(fā)現(xiàn),如果將雪貂的大腦重新連接,使視覺信號(hào)傳送到聽覺區(qū)域,它們可以學(xué)會(huì)用大腦的聽覺處理區(qū)域去“看”(Von Melchner et al.,2000)。這暗示著大多數(shù)哺乳動(dòng)物的大腦使用單一的算法就可以解決其大腦可以解決的大部分不同任務(wù)。在這個(gè)假設(shè)之前,機(jī)器學(xué)習(xí)研究是比較分散的,研究人員在不同的社群研究自然語言處理、計(jì)算機(jī)視覺、運(yùn)動(dòng)規(guī)劃和語音識(shí)別。如今,這些應(yīng)用社群仍然是獨(dú)立的,但是對(duì)于深度學(xué)習(xí)研究團(tuán)體來說,同時(shí)研究許多甚至所有這些應(yīng)用領(lǐng)域是很常見的。 我們能夠從神經(jīng)科學(xué)得到一些粗略的指南。僅通過計(jì)算單元之間的相互作用而變得智能的基本思想是受大腦啟發(fā)的。新認(rèn)知機(jī)(Fukushima,1980)受哺乳動(dòng)物視覺系統(tǒng)的結(jié)構(gòu)啟發(fā),引入了一個(gè)處理圖片的強(qiáng)大模型架構(gòu),它后來成為了現(xiàn)代卷積網(wǎng)絡(luò)的基礎(chǔ)(LeCun et al.,1998c)(參見第 9.10 節(jié))。目前大多數(shù)神經(jīng)網(wǎng)絡(luò)是基于一個(gè)稱為整流線性單元(rectified linear unit)的神經(jīng)單元模型。原始認(rèn)知機(jī)(Fukushima,1975)受我們關(guān)于大腦功能知識(shí)的啟發(fā),引入了一個(gè)更復(fù)雜的版本。簡(jiǎn)化的現(xiàn)代版通過吸收來自不同觀點(diǎn)的思想而形成,Nair and Hinton(2010b)和 Glorot et al.(2011a)援引神經(jīng)科學(xué)作為影響,Jarrett et al.(2009a)援引更多面向工程的影響。雖然神經(jīng)科學(xué)是靈感的重要來源,但它不需要被視為剛性指導(dǎo)。我們知道,真實(shí)的神經(jīng)元計(jì)算著與現(xiàn)代整流線性單元非常不同的函數(shù),但更接近真實(shí)神經(jīng)網(wǎng)絡(luò)的系統(tǒng)并沒有導(dǎo)致機(jī)器學(xué)習(xí)性能的提升。此外,雖然神經(jīng)科學(xué)已經(jīng)成功地啟發(fā)了一些神經(jīng)網(wǎng)絡(luò)架構(gòu),但我們對(duì)用于神經(jīng)科學(xué)的生物學(xué)習(xí)還沒有足夠多的了解,因此也就不能為訓(xùn)練這些架構(gòu)用的學(xué)習(xí)算法提供太多的借鑒。 媒體報(bào)道經(jīng)常強(qiáng)調(diào)深度學(xué)習(xí)與大腦的相似性。的確,深度學(xué)習(xí)研究者比其他機(jī)器學(xué)習(xí)領(lǐng)域(如核方法或貝葉斯統(tǒng)計(jì))的研究者更可能地引用大腦作為影響,但是大家不應(yīng)該認(rèn)為深度學(xué)習(xí)在嘗試模擬大腦。現(xiàn)代深度學(xué)習(xí)從許多領(lǐng)域獲取靈感,特別是應(yīng)用數(shù)學(xué)的基本內(nèi)容,如線性代數(shù)、概率論、信息論和數(shù)值優(yōu)化。盡管一些深度學(xué)習(xí)的研究人員引用神經(jīng)科學(xué)作為靈感的重要來源,然而其他學(xué)者完全不關(guān)心神經(jīng)科學(xué)。 值得注意的是,了解大腦是如何在算法層面上工作的嘗試確實(shí)存在且發(fā)展良好。這項(xiàng)嘗試主要被稱為“計(jì)算神經(jīng)科學(xué)”,并且是獨(dú)立于深度學(xué)習(xí)的領(lǐng)域。研究人員在兩個(gè)領(lǐng)域之間來回研究是很常見的。深度學(xué)習(xí)領(lǐng)域主要關(guān)注如何構(gòu)建計(jì)算機(jī)系統(tǒng),從而成功解決需要智能才能解決的任務(wù),而計(jì)算神經(jīng)科學(xué)領(lǐng)域主要關(guān)注構(gòu)建大腦如何真實(shí)工作的、比較精確的模型。 20 世紀(jì) 80 年代,神經(jīng)網(wǎng)絡(luò)研究的第二次浪潮在很大程度上是伴隨一個(gè)被稱為聯(lián)結(jié)主義(connectionism)或并行分布處理(parallel distributed processing)潮流而出現(xiàn)的(Rumelhart et al.,1986d;McClelland et al.,1995)。聯(lián)結(jié)主義是在認(rèn)知科學(xué)的背景下出現(xiàn)的。認(rèn)知科學(xué)是理解思維的跨學(xué)科途徑,即它融合多個(gè)不同的分析層次。20世紀(jì)80年代初期,大多數(shù)認(rèn)知科學(xué)家研究符號(hào)推理模型。盡管這很流行,但符號(hào)模型很難解釋大腦如何真正使用神經(jīng)元實(shí)現(xiàn)推理功能。聯(lián)結(jié)主義者開始研究真正基于神經(jīng)系統(tǒng)實(shí)現(xiàn)的認(rèn)知模型(Touretzky and Minton,1985),其中很多復(fù)蘇的想法可以追溯到心理學(xué)家Donald Hebb在20世紀(jì)40年代的工作(Hebb,1949)。 聯(lián)結(jié)主義的中心思想是,當(dāng)網(wǎng)絡(luò)將大量簡(jiǎn)單的計(jì)算單元連接在一起時(shí)可以實(shí)現(xiàn)智能行為。這種見解同樣適用于生物神經(jīng)系統(tǒng)中的神經(jīng)元,因?yàn)樗陀?jì)算模型中隱藏單元起著類似的作用。 在20世紀(jì)80年代的聯(lián)結(jié)主義期間形成的幾個(gè)關(guān)鍵概念在今天的深度學(xué)習(xí)中仍然是非常重要的。 其中一個(gè)概念是分布式表示(distributed representation)(Hinton et al.,1986)。其思想是:系統(tǒng)的每一個(gè)輸入都應(yīng)該由多個(gè)特征表示,并且每一個(gè)特征都應(yīng)該參與到多個(gè)可能輸入的表示。例如,假設(shè)我們有一個(gè)能夠識(shí)別紅色、綠色或藍(lán)色的汽車、卡車和鳥類的視覺系統(tǒng),表示這些輸入的其中一個(gè)方法是將 9個(gè)可能的組合:紅卡車、紅汽車、紅鳥、綠卡車等使用單獨(dú)的神經(jīng)元或隱藏單元激活。這需要9個(gè)不同的神經(jīng)元,并且每個(gè)神經(jīng)必須獨(dú)立地學(xué)習(xí)顏色和對(duì)象身份的概念。改善這種情況的方法之一是使用分布式表示,即用3個(gè)神經(jīng)元描述顏色,3個(gè)神經(jīng)元描述對(duì)象身份。這僅僅需要6個(gè)神經(jīng)元而不是9個(gè),并且描述紅色的神經(jīng)元能夠從汽車、卡車和鳥類的圖像中學(xué)習(xí)紅色,而不僅僅是從一個(gè)特定類別的圖像中學(xué)習(xí)。分布式表示的概念是本書的核心,我們將在第15章中更加詳細(xì)地描述。 聯(lián)結(jié)主義潮流的另一個(gè)重要成就是反向傳播在訓(xùn)練具有內(nèi)部表示的深度神經(jīng)網(wǎng)絡(luò)中的成功使用以及反向傳播算法的普及(Rumelhart et al.,1986c;Le Cun,1987)。這個(gè)算法雖然曾黯然失色且不再流行,但截至寫書之時(shí),它仍是訓(xùn)練深度模型的主導(dǎo)方法。 20 世紀(jì) 90 年代,研究人員在使用神經(jīng)網(wǎng)絡(luò)進(jìn)行序列建模的方面取得了重要進(jìn)展。Hochreiter(1991b)和 Bengio et al.(1994b)指出了對(duì)長序列進(jìn)行建模的一些根本性數(shù)學(xué)難題,這將在第 10.7 節(jié)中描述。Hochreiter 和 Schmidhuber(1997)引入長短期記憶(long shortterm memory,LSTM)網(wǎng)絡(luò)來解決這些難題。如今,LSTM在許多序列建模任務(wù)中廣泛應(yīng)用,包括Google的許多自然語言處理任務(wù)。 神經(jīng)網(wǎng)絡(luò)研究的第二次浪潮一直持續(xù)到20世紀(jì)90年代中期。基于神經(jīng)網(wǎng)絡(luò)和其他AI技術(shù)的創(chuàng)業(yè)公司開始尋求投資,其做法野心勃勃但不切實(shí)際。當(dāng)AI研究不能實(shí)現(xiàn)這些不合理的期望時(shí),投資者感到失望。同時(shí),機(jī)器學(xué)習(xí)的其他領(lǐng)域取得了進(jìn)步。比如,核方法(Boseret al.,1992;Cortes and Vapnik,1995;Sch?lkopf et al.,1999)和圖模型(Jordan,1998)都在很多重要任務(wù)上實(shí)現(xiàn)了很好的效果。這兩個(gè)因素導(dǎo)致了神經(jīng)網(wǎng)絡(luò)熱潮的第二次衰退,并一直持續(xù)到2007年。 在此期間,神經(jīng)網(wǎng)絡(luò)繼續(xù)在某些任務(wù)上獲得令人印象深刻的表現(xiàn)(Le Cun et al.,1998c;Bengio et al.,2001a)。加拿大高級(jí)研究所(CIFAR)通過其神經(jīng)計(jì)算和自適應(yīng)感知(NCAP)研究計(jì)劃幫助維持神經(jīng)網(wǎng)絡(luò)研究。該計(jì)劃聯(lián)合了分別由Geoffrey Hinton、Yoshua Bengio和Yann Le Cun領(lǐng)導(dǎo)的多倫多大學(xué)、蒙特利爾大學(xué)和紐約大學(xué)的機(jī)器學(xué)習(xí)研究小組。這個(gè)多學(xué)科的CIFARNCAP研究計(jì)劃還包括了神經(jīng)科學(xué)家、人類和計(jì)算機(jī)視覺專家。 在那個(gè)時(shí)候,人們普遍認(rèn)為深度網(wǎng)絡(luò)是難以訓(xùn)練的。現(xiàn)在我們知道,20世紀(jì)80年代就存在的算法能工作得非常好,但是直到2006年前后都沒有體現(xiàn)出來。這可能僅僅由于其計(jì)算代價(jià)太高,而以當(dāng)時(shí)可用的硬件難以進(jìn)行足夠的實(shí)驗(yàn)。 神經(jīng)網(wǎng)絡(luò)研究的第三次浪潮始于2006年的突破。Geoffrey Hinton表明名為“深度信念網(wǎng)絡(luò)”的神經(jīng)網(wǎng)絡(luò)可以使用一種稱為“貪婪逐層預(yù)訓(xùn)練”的策略來有效地訓(xùn)練(Hinton et al.,2006a),我們將在第15.1節(jié)中更詳細(xì)地描述。其他CIFAR附屬研究小組很快表明,同樣的策略可以被用來訓(xùn)練許多其他類型的深度網(wǎng)絡(luò)(Bengio and Le Cun,2007a;Ranzato et al.,2007b),并能系統(tǒng)地幫助提高在測(cè)試樣例上的泛化能力。神經(jīng)網(wǎng)絡(luò)研究的這一次浪潮普及了“深度學(xué)習(xí)”這一術(shù)語,強(qiáng)調(diào)研究者現(xiàn)在有能力訓(xùn)練以前不可能訓(xùn)練的比較深的神經(jīng)網(wǎng)絡(luò),并著力于深度的理論重要性上(Bengioand Le Cun,2007b;Delalleau and Bengio,2011;Pascanu et al., 2014a; Montufar et al., 2014)。此時(shí),深度神經(jīng)網(wǎng)絡(luò)已經(jīng)優(yōu)于與之競(jìng)爭(zhēng)的基于其他機(jī)器學(xué)習(xí)技術(shù)以及手工設(shè)計(jì)功能的AI系統(tǒng)。在寫這本書的時(shí)候,神經(jīng)網(wǎng)絡(luò)的第三次發(fā)展浪潮仍在繼續(xù),盡管深度學(xué)習(xí)的研究重點(diǎn)在這一段時(shí)間內(nèi)發(fā)生了巨大變化。第三次浪潮已開始著眼于新的無監(jiān)督學(xué)習(xí)技術(shù)和深度模型在小數(shù)據(jù)集的泛化能力,但目前更多的興趣點(diǎn)仍是比較傳統(tǒng)的監(jiān)督學(xué)習(xí)算法和深度模型充分利用大型標(biāo)注數(shù)據(jù)集的能力。
與日俱增的數(shù)據(jù)量 人們可能想問,既然人工神經(jīng)網(wǎng)絡(luò)的第一個(gè)實(shí)驗(yàn)在20世紀(jì)50年代就完成了,但為什么深度學(xué)習(xí)直到最近才被認(rèn)為是關(guān)鍵技術(shù)?自20世紀(jì)90年代以來,深度學(xué)習(xí)就已經(jīng)成功用于商業(yè)應(yīng)用,但通常被視為一種只有專家才可以使用的藝術(shù)而不是一種技術(shù),這種觀點(diǎn)一直持續(xù)到最近。確實(shí),要從一個(gè)深度學(xué)習(xí)算法獲得良好的性能需要一些技巧。幸運(yùn)的是,隨著訓(xùn)練數(shù)據(jù)的增加,所需的技巧正在減少。目前在復(fù)雜的任務(wù)中達(dá)到人類水平的學(xué)習(xí)算法,與20世紀(jì)80年代努力解決玩具問題(toy problem)的學(xué)習(xí)算法幾乎是一樣的,盡管我們使用這些算法訓(xùn)練的模型經(jīng)歷了變革,即簡(jiǎn)化了極深架構(gòu)的訓(xùn)練。最重要的新進(jìn)展是,現(xiàn)在我們有了這些算法得以成功訓(xùn)練所需的資源。圖1.8展示了基準(zhǔn)數(shù)據(jù)集的大小如何隨著時(shí)間的推移而顯著增加。這種趨勢(shì)是由社會(huì)日益數(shù)字化驅(qū)動(dòng)的。由于我們的活動(dòng)越來越多地發(fā)生在計(jì)算機(jī)上,我們做什么也越來越多地被記錄。由于計(jì)算機(jī)越來越多地聯(lián)網(wǎng)在一起,這些記錄變得更容易集中管理,并更容易將它們整理成適于機(jī)器學(xué)習(xí)應(yīng)用的數(shù)據(jù)集。因?yàn)榻y(tǒng)計(jì)估計(jì)的主要負(fù)擔(dān)(觀察少量數(shù)據(jù)以在新數(shù)據(jù)上泛化)已經(jīng)減輕,“大數(shù)據(jù)”時(shí)代使機(jī)器學(xué)習(xí)更加容易。截至2016年,一個(gè)粗略的經(jīng)驗(yàn)法則是,監(jiān)督深度學(xué)習(xí)算法在每類給定約5000個(gè)標(biāo)注樣本情況下一般將達(dá)到可以接受的性能,當(dāng)至少有1000萬個(gè)標(biāo)注樣本的數(shù)據(jù)集用于訓(xùn)練時(shí),它將達(dá)到或超過人類表現(xiàn)。此外,在更小的數(shù)據(jù)集上獲得成功是一個(gè)重要的研究領(lǐng)域,為此我們應(yīng)特別側(cè)重于如何通過無監(jiān)督或半監(jiān)督學(xué)習(xí)充分利用大量的未標(biāo)注樣本。
圖3 與日俱增的數(shù)據(jù)量。20世紀(jì)初,統(tǒng)計(jì)學(xué)家使用數(shù)百或數(shù)千的手動(dòng)制作的度量來研究數(shù)據(jù)集(Garson,1900;Gosset,1908;Anderson,1935;Fisher,1936)。20世紀(jì)50年代到80年代,受生物啟發(fā)的機(jī)器學(xué)習(xí)開拓者通常使用小的合成數(shù)據(jù)集,如低分辨率的字母位圖,設(shè)計(jì)為在低計(jì)算成本下表明神經(jīng)網(wǎng)絡(luò)能夠?qū)W習(xí)特定功能(Widrow and Hoff,1960;Rumelhart et al.,1986b)。20世紀(jì)80年代和90年代,機(jī)器學(xué)習(xí)變得更偏統(tǒng)計(jì),并開始利用包含成千上萬個(gè)樣本的更大數(shù)據(jù)集,如手寫掃描數(shù)字的MNIST數(shù)據(jù)集(如圖1.9所示)(Le Cun et al.,1998c)。在21世紀(jì)的第一個(gè)10年里,相同大小更復(fù)雜的數(shù)據(jù)集持續(xù)出現(xiàn),如CIFAR-10數(shù)據(jù)集(Krizhevsky and Hinton,2009)。在這10年結(jié)束和接下來的5年,明顯更大的數(shù)據(jù)集(包含數(shù)萬到數(shù)千萬的樣例)完全改變了深度學(xué)習(xí)可能實(shí)現(xiàn)的事。這些數(shù)據(jù)集包括公共Street View House Numbers數(shù)據(jù)集(Netzer et al.,2011)、各種版本的Image Net數(shù)據(jù)集(Deng et al.,2009,2010a;Russakovsky et al.,2014a)以及Sports-1M數(shù)據(jù)集(Karpathy et al.,2014)。在圖頂部,我們看到翻譯句子的數(shù)據(jù)集通常遠(yuǎn)大于其他數(shù)據(jù)集,如根據(jù)Canadian Hansard制作的IBM數(shù)據(jù)集(Brown et al.,1990)和WMT2014英法數(shù)據(jù)集(Schwenk,2014)
圖4 MNIST數(shù)據(jù)集的輸入樣例。“NIST”代表國家標(biāo)準(zhǔn)和技術(shù)研究所(National Institute of Standards and Technology),是最初收集這些數(shù)據(jù)的機(jī)構(gòu)。“M”代表“修改的(Modified)”,為更容易地與機(jī)器學(xué)習(xí)算法一起使用,數(shù)據(jù)已經(jīng)過預(yù)處理。MNIST數(shù)據(jù)集包括手寫數(shù)字的掃描和相關(guān)標(biāo)簽(描述每個(gè)圖像中包含0~9中哪個(gè)數(shù)字)。這個(gè)簡(jiǎn)單的分類問題是深度學(xué)習(xí)研究中最簡(jiǎn)單和最廣泛使用的測(cè)試之一。盡管現(xiàn)代技術(shù)很容易解決這個(gè)問題,它仍然很受歡迎。Geoffrey Hinton將其描述為“機(jī)器學(xué)習(xí)的果蠅”,這意味著機(jī)器學(xué)習(xí)研究人員可以在受控的實(shí)驗(yàn)室條件下研究他們的算法,就像生物學(xué)家經(jīng)常研究果蠅一樣
與日俱增的模型規(guī)模 20世紀(jì)80年代,神經(jīng)網(wǎng)絡(luò)只能取得相對(duì)較小的成功,而現(xiàn)在神經(jīng)網(wǎng)絡(luò)非常成功的另一個(gè)重要原因是我們現(xiàn)在擁有的計(jì)算資源可以運(yùn)行更大的模型。聯(lián)結(jié)主義的主要見解之一是,當(dāng)動(dòng)物的許多神經(jīng)元一起工作時(shí)會(huì)變得聰明。單獨(dú)神經(jīng)元或小集合的神經(jīng)元不是特別有用。 生物神經(jīng)元不是特別稠密地連接在一起。如圖1.10所示,幾十年來,我們的機(jī)器學(xué)習(xí)模型中每個(gè)神經(jīng)元的連接數(shù)量已經(jīng)與哺乳動(dòng)物的大腦在同一數(shù)量級(jí)上。
圖5 與日俱增的每個(gè)神經(jīng)元的連接數(shù)。最初,人工神經(jīng)網(wǎng)絡(luò)中神經(jīng)元之間的連接數(shù)受限于硬件能力。而現(xiàn)在,神經(jīng)元之間的連接數(shù)大多是出于設(shè)計(jì)考慮。一些人工神經(jīng)網(wǎng)絡(luò)中每個(gè)神經(jīng)元的連接數(shù)與貓一樣多,并且對(duì)于其他神經(jīng)網(wǎng)絡(luò)來說,每個(gè)神經(jīng)元的連接數(shù)與較小哺乳動(dòng)物(如小鼠)一樣多,這種情況是非常普遍的。甚至人類大腦每個(gè)神經(jīng)元的連接數(shù)也沒有過高的數(shù)量。生物神經(jīng)網(wǎng)絡(luò)規(guī)模來自Wikipedia(2015) 1.自適應(yīng)線性單元(Widrow and Hoff,1960);2.神經(jīng)認(rèn)知機(jī)(Fukushima,1980);3.GPU-加速卷積網(wǎng)絡(luò)(Chellapilla et al.,2006);4.深度玻爾茲曼機(jī)(Salakhutdinov and Hinton,2009a);5.無監(jiān)督卷積網(wǎng)絡(luò)(Jarrett et al.,2009b);6.GPU- 加速多層感知機(jī)(Ciresan et al.,2010);7.分布式自編碼器(Le et al.,2012);8.Multi-GPU 卷積網(wǎng)絡(luò)(Krizhevsky et al.,2012a);9.COTSHPC無監(jiān)督卷積網(wǎng)絡(luò)(Coates et al.,2013);10.Goog Le Net(Szegedy et al.,2014a) 如圖1.11所示,就神經(jīng)元的總數(shù)目而言,直到最近神經(jīng)網(wǎng)絡(luò)都是驚人的小。自從隱藏單元引入以來,人工神經(jīng)網(wǎng)絡(luò)的規(guī)模大約每2.4年擴(kuò)大一倍。這種增長是由更大內(nèi)存、更快的計(jì)算機(jī)和更大的可用數(shù)據(jù)集驅(qū)動(dòng)的。更大的網(wǎng)絡(luò)能夠在更復(fù)雜的任務(wù)中實(shí)現(xiàn)更高的精度。這種趨勢(shì)看起來將持續(xù)數(shù)十年。除非有能力迅速擴(kuò)展新技術(shù),否則至少要到21世紀(jì)50年代,人工神經(jīng)網(wǎng)絡(luò)才能具備與人腦相同數(shù)量級(jí)的神經(jīng)元。生物神經(jīng)元表示的功能可能比目前的人工神經(jīng)元所表示的更復(fù)雜,因此生物神經(jīng)網(wǎng)絡(luò)可能比圖中描繪的甚至要更大。
圖6 與日俱增的神經(jīng)網(wǎng)絡(luò)規(guī)模。自從引入隱藏單元,人工神經(jīng)網(wǎng)絡(luò)的規(guī)模大約每2.4年翻一倍。生物神經(jīng)網(wǎng)絡(luò)規(guī)模來自Wikipedia(2015) 1.感知機(jī)(Rosenblatt,1958,1962);2.自適應(yīng)線性單元(Widrow and Hoff,1960);3.神經(jīng)認(rèn)知機(jī)(Fukushima,1980);4.早期后向傳播網(wǎng)絡(luò)(Rumelhart et al.,1986b);5.用于語音識(shí)別的循環(huán)神經(jīng)網(wǎng)絡(luò)(Robinson and Fallside,1991);6.用于語音識(shí)別的多層感知機(jī)(Bengio et al.,1991);7.均勻場(chǎng)sigmoid信念網(wǎng)絡(luò)(Saul et al.,1996);8.Le Net-5(Le Cun et al.,1998c);9.回聲狀態(tài)網(wǎng)絡(luò)(Jaeger and Haas,2004);10.深度信念網(wǎng)絡(luò)(Hinton et al.,2006a);11.GPU-加速卷積網(wǎng)絡(luò)(Chellapilla et al.,2006);12.深度玻爾茲曼機(jī)(Salakhutdinov and Hinton,2009a);13.GPU-加速深度信念網(wǎng)絡(luò)(Raina et al.,2009a);14.無監(jiān)督卷積網(wǎng)絡(luò)(Jarrett et al.,2009b);15.GPU-加速多層感知機(jī)(Ciresan et al.,2010);16.OMP-1網(wǎng)絡(luò)(Coates and Ng,2011);17.分布式自編碼器(Le et al.,2012);18.Multi-GPU卷積網(wǎng)絡(luò)(Krizhevsky et al.,2012a);19.COTSHPC無監(jiān)督卷積網(wǎng)絡(luò)(Coates et al.,2013);20.Goog Le Net(Szegedy et al.,2014a) 現(xiàn)在看來,神經(jīng)元數(shù)量比一個(gè)水蛭還少的神經(jīng)網(wǎng)絡(luò)不能解決復(fù)雜的人工智能問題,這是不足為奇的。即使現(xiàn)在的網(wǎng)絡(luò),從計(jì)算系統(tǒng)角度來看它可能相當(dāng)大,但實(shí)際上它比相對(duì)原始的脊椎動(dòng)物(如青蛙)的神經(jīng)系統(tǒng)還要小。 由于更快的CPU、通用GPU的出現(xiàn)(在第12.1.2節(jié)中討論)、更快的網(wǎng)絡(luò)連接和更好的分布式計(jì)算的軟件基礎(chǔ)設(shè)施,模型規(guī)模隨著時(shí)間的推移不斷增加是深度學(xué)習(xí)歷史中最重要的趨勢(shì)之一。人們普遍預(yù)計(jì)這種趨勢(shì)將很好地持續(xù)到未來。
與日俱增的精度、復(fù)雜度和對(duì)現(xiàn)實(shí)世界的沖擊 20世紀(jì)80年代以來,深度學(xué)習(xí)提供精確識(shí)別和預(yù)測(cè)的能力一直在提高。而且,深度學(xué)習(xí)持續(xù)成功地應(yīng)用于越來越廣泛的實(shí)際問題中。 最早的深度模型被用來識(shí)別裁剪緊湊且非常小的圖像中的單個(gè)對(duì)象(Rumelhart et al.,1986d)。此后,神經(jīng)網(wǎng)絡(luò)可以處理的圖像尺寸逐漸增加。現(xiàn)代對(duì)象識(shí)別網(wǎng)絡(luò)能處理豐富的高分辨率照片,并且不需要在被識(shí)別的對(duì)象附近進(jìn)行裁剪(Krizhevsky et al.,2012b)。類似地,最早的網(wǎng)絡(luò)只能識(shí)別兩種對(duì)象(或在某些情況下,單類對(duì)象的存在與否),而這些現(xiàn)代網(wǎng)絡(luò)通常能夠識(shí)別至少1000個(gè)不同類別的對(duì)象。對(duì)象識(shí)別中最大的比賽是每年舉行的Image Net大型視覺識(shí)別挑戰(zhàn)(ILSVRC)。深度學(xué)習(xí)迅速崛起的激動(dòng)人心的一幕是卷積網(wǎng)絡(luò)第一次大幅贏得這一挑戰(zhàn),它將最高水準(zhǔn)的前5錯(cuò)誤率從26.1%降到15.3%(Krizhevsky et al.,2012b),這意味著該卷積網(wǎng)絡(luò)針對(duì)每個(gè)圖像的可能類別生成一個(gè)順序列表,除了15.3%的測(cè)試樣本,其他測(cè)試樣本的正確類標(biāo)都出現(xiàn)在此列表中的前5項(xiàng)里。此后,深度卷積網(wǎng)絡(luò)連續(xù)地贏得這些比賽,截至寫作本書時(shí),深度學(xué)習(xí)的最新結(jié)果將這個(gè)比賽中的前5錯(cuò)誤率降到了3.6%,如圖1.12所示。
圖7 日益降低的錯(cuò)誤率。由于深度網(wǎng)絡(luò)達(dá)到了在ImageNet大規(guī)模視覺識(shí)別挑戰(zhàn)中競(jìng)爭(zhēng)所必需的規(guī)模,它們每年都能贏得勝利,并且產(chǎn)生越來越低的錯(cuò)誤率。數(shù)據(jù)來源于Russakovsky et al.(2014b)和He et al.(2015) 深度學(xué)習(xí)也對(duì)語音識(shí)別產(chǎn)生了巨大影響。語音識(shí)別在20世紀(jì)90年代得到提高后,直到約2000年都停滯不前。深度學(xué)習(xí)的引入(Dahl et al.,2010;Deng et al.,2010b;Seide et al.,2011;Hinton et al.,2012a)使得語音識(shí)別錯(cuò)誤率陡然下降,有些錯(cuò)誤率甚至降低了一半。我們將在第12.3節(jié)更詳細(xì)地探討這個(gè)歷史。 深度網(wǎng)絡(luò)在行人檢測(cè)和圖像分割中也取得了引人注目的成功(Sermanet et al.,2013;Farabet et al.,2013;Couprie et al.,2013),并且在交通標(biāo)志分類上取得了超越人類的表現(xiàn)(Ciresan et al.,2012)。 在深度網(wǎng)絡(luò)的規(guī)模和精度有所提高的同時(shí),它們可以解決的任務(wù)也日益復(fù)雜。Goodfellow et al.(2014d)表明,神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)輸出描述圖像的整個(gè)字符序列,而不是僅僅識(shí)別單個(gè)對(duì)象。此前,人們普遍認(rèn)為,這種學(xué)習(xí)需要對(duì)序列中的單個(gè)元素進(jìn)行標(biāo)注(Gulcehre and Bengio,2013)。循環(huán)神經(jīng)網(wǎng)絡(luò),如之前提到的LSTM序列模型,現(xiàn)在用于對(duì)序列和其他序列之間的關(guān)系進(jìn)行建模,而不是僅僅固定輸入之間的關(guān)系。這種序列到序列的學(xué)習(xí)似乎引領(lǐng)著另一個(gè)應(yīng)用的顛覆性發(fā)展,即機(jī)器翻譯(Sutskever et al.,2014;Bahdanau et al.,2015)。 這種復(fù)雜性日益增加的趨勢(shì)已將其推向邏輯結(jié)論,即神經(jīng)圖靈機(jī)(Graves et al.,2014)的引入,它能學(xué)習(xí)讀取存儲(chǔ)單元和向存儲(chǔ)單元寫入任意內(nèi)容。這樣的神經(jīng)網(wǎng)絡(luò)可以從期望行為的樣本中學(xué)習(xí)簡(jiǎn)單的程序。例如,從雜亂和排好序的樣本中學(xué)習(xí)對(duì)一系列數(shù)進(jìn)行排序。這種自我編程技術(shù)正處于起步階段,但原則上未來可以適用于幾乎所有的任務(wù)。 深度學(xué)習(xí)的另一個(gè)最大的成就是其在強(qiáng)化學(xué)習(xí)(reinforcement learning)領(lǐng)域的擴(kuò)展。在強(qiáng)化學(xué)習(xí)中,一個(gè)自主的智能體必須在沒有人類操作者指導(dǎo)的情況下,通過試錯(cuò)來學(xué)習(xí)執(zhí)行任務(wù)。DeepMind表明,基于深度學(xué)習(xí)的強(qiáng)化學(xué)習(xí)系統(tǒng)能夠?qū)W會(huì)玩Atari視頻游戲,并在多種任務(wù)中可與人類匹敵(Mnih et al.,2015)。深度學(xué)習(xí)也顯著改善了機(jī)器人強(qiáng)化學(xué)習(xí)的性能(Finn et al.,2015)。 許多深度學(xué)習(xí)應(yīng)用都是高利潤的。現(xiàn)在深度學(xué)習(xí)被許多頂級(jí)的技術(shù)公司使用,包括Google、Microsoft、Facebook、IBM、Baidu、Apple、Adobe、Netflix、NVIDIA和NEC等。 深度學(xué)習(xí)的進(jìn)步也嚴(yán)重依賴于軟件基礎(chǔ)架構(gòu)的進(jìn)展。軟件庫如Theano(Bergstra et al.,2010a;Bastien et al.,2012a)、PyLearn2(Goodfellow et al.,2013e)、Torch(Collobert et al.,2011b)、Dist Belief(Dean et al.,2012)、Caffe(Jia,2013)、MXNet(Chen et al.,2015)和Tensor-Flow(Abadi et al.,2015)都能支持重要的研究項(xiàng)目或商業(yè)產(chǎn)品。 深度學(xué)習(xí)也為其他科學(xué)做出了貢獻(xiàn)。用于對(duì)象識(shí)別的現(xiàn)代卷積網(wǎng)絡(luò)為神經(jīng)科學(xué)家們提供了可以研究的視覺處理模型(DiCarlo,2013)。深度學(xué)習(xí)也為處理海量數(shù)據(jù)以及在科學(xué)領(lǐng)域做出有效的預(yù)測(cè)提供了非常有用的工具。它已成功地用于預(yù)測(cè)分子如何相互作用、從而幫助制藥公司設(shè)計(jì)新的藥物(Dahl et al.,2014),搜索亞原子粒子(Baldi et al.,2014),以及自動(dòng)解析用于構(gòu)建人腦三維圖的顯微鏡圖像(Knowles-Barley et al.,2014)等多個(gè)場(chǎng)合。我們期待深度學(xué)習(xí)未來能夠出現(xiàn)在越來越多的科學(xué)領(lǐng)域中。 總之,深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一種方法。在過去幾十年的發(fā)展中,它大量借鑒了我們關(guān)于人腦、統(tǒng)計(jì)學(xué)和應(yīng)用數(shù)學(xué)的知識(shí)。近年來,得益于更強(qiáng)大的計(jì)算機(jī)、更大的數(shù)據(jù)集和能夠訓(xùn)練更深網(wǎng)絡(luò)的技術(shù),深度學(xué)習(xí)的普及性和實(shí)用性都有了極大的發(fā)展。未來幾年,深度學(xué)習(xí)更是充滿了進(jìn)一步提高并應(yīng)用到新領(lǐng)域的挑戰(zhàn)和機(jī)遇。
ISBN:9787115461476 定價(jià):168元
“花書”《深度學(xué)習(xí)》AI圣經(jīng)! 全球知名專家Ian Goodfellow、Yoshua Bengio和Aaron Courville撰寫。 美亞人工智能和機(jī)器學(xué)習(xí)領(lǐng)域排名第一的經(jīng)典暢銷書。 深度學(xué)習(xí)領(lǐng)域奠基性的圖書產(chǎn)品! 全彩印刷。
內(nèi)容簡(jiǎn)介 《深度學(xué)習(xí)》由全球知名的三位專家Ian Goodfellow、Yoshua Bengio 和Aaron Courville撰寫,是深度學(xué)習(xí)領(lǐng)域奠基性的經(jīng)典教材。全書的內(nèi)容包括 3 個(gè)部分:第 1 部分介紹基本的數(shù)學(xué)工具和機(jī)器學(xué)習(xí)的概念,它們是深度學(xué)習(xí)的預(yù)備知識(shí);第 2 部分系統(tǒng)深入地講解現(xiàn)今已成熟的深度學(xué)習(xí)方法和技術(shù);第 3 部分討論某些具有前瞻性的方向和想法,它們被公認(rèn)為是深度學(xué)習(xí)未來的研究重點(diǎn)。 - END -
總結(jié)
以上是生活随笔為你收集整理的AI圣经《深度学习》作者斩获2018年图灵奖,100 万奖励!...的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Pytorch中的grid_sample
- 下一篇: 程序员面试到底面什么?