深度学习,路在何方?
文 | Severus
最近,AI領(lǐng)域的三位圖靈獎(jiǎng)獲得者Yoshua Bengio、Yann LeCun和Geoffrey Hinton共同發(fā)表了一篇文章,名為Deep Learning for AI,文中討論了深度學(xué)習(xí)的起源、發(fā)展、成就及未來(lái)。
文章標(biāo)題:
Deep Learning for AI
原文鏈接:
https://cacm.acm.org/magazines/2021/7/253464-deep-learning-for-ai/fulltext
小伙伴們也可以在 【夕小瑤的賣(mài)萌屋】訂閱號(hào)后臺(tái)回復(fù)關(guān)鍵詞 【0712】 下載論文PDF~
今天我們有什么
得益于越來(lái)越便宜的算力,以及越來(lái)越海量的數(shù)據(jù),加上各種機(jī)構(gòu)做出了越來(lái)越簡(jiǎn)單易用的深度學(xué)習(xí)框架,如Theano、Torch、TensorFlow、PyTorch等,它們可以做自動(dòng)求導(dǎo),讓訓(xùn)練深度學(xué)習(xí)模型變得更加簡(jiǎn)單。這一切因素帶動(dòng)了深度學(xué)習(xí)的火熱。
深度學(xué)習(xí)在結(jié)構(gòu)上的成功,則在于它的多層結(jié)構(gòu),可以進(jìn)行重組、重構(gòu)建淺層網(wǎng)絡(luò)得到更加抽象的特征,而這些特征,用于最終的任務(wù),如分類(lèi)任務(wù)、生成任務(wù)等,就會(huì)變得足夠的簡(jiǎn)單。但如果想得到合理的抽象特征,自然也就需要海量的數(shù)據(jù)來(lái)支撐。
在有標(biāo)簽數(shù)據(jù)充沛的領(lǐng)域,監(jiān)督學(xué)習(xí)自然是會(huì)達(dá)到非常好的效果;在規(guī)則足夠簡(jiǎn)單,且限制比較強(qiáng)的領(lǐng)域,強(qiáng)化學(xué)習(xí)也自然會(huì)有非常強(qiáng)勢(shì)的表現(xiàn)(如下棋、游戲等)。但是現(xiàn)實(shí)世界顯然不會(huì)是這么理想的,那么,利用遷移學(xué)習(xí),將從數(shù)據(jù)充沛的任務(wù)中學(xué)習(xí)到的知識(shí)應(yīng)用到一些數(shù)據(jù)不是那么夠的任務(wù)中,就成為了下一步解決方案。那么遷移學(xué)習(xí)中的預(yù)訓(xùn)練任務(wù),要怎么樣去設(shè)計(jì),才能得到一種對(duì)下游任務(wù)足夠友好的通用表示,且數(shù)據(jù)可以足夠多呢?
各個(gè)領(lǐng)域的人,嘗試了各種無(wú)監(jiān)督、自監(jiān)督的方式,如NLP領(lǐng)域,有完形填空任務(wù),即讓模型填上文本中遮蔽掉的詞,或改正錯(cuò)誤的詞;CV領(lǐng)域,則使用對(duì)比學(xué)習(xí)來(lái)得到更加魯棒的表示(實(shí)際上,近年來(lái)也有將對(duì)比學(xué)習(xí)策略應(yīng)用到NLP的工作,當(dāng)然這些工作最大的問(wèn)題仍是怎么樣去定義對(duì)比學(xué)習(xí)的正例和負(fù)例)。還有一種自監(jiān)督的學(xué)習(xí)方法是變分自動(dòng)編碼器(VAE),簡(jiǎn)單來(lái)講,就是由編碼器學(xué)習(xí)圖片的表示,再用解碼器還原這張圖片(用這個(gè)表示去生成一張圖片)。
以上是文章中對(duì)近期深度學(xué)習(xí)的工作進(jìn)展的介紹,寥寥數(shù)字,遠(yuǎn)不及文章中所提全面,例如soft attention的成功、ReLU成功之謎,本文不再介紹,而比較關(guān)鍵的是要談一談深度學(xué)習(xí)的未來(lái)。
未來(lái)何去何從
機(jī)器學(xué)習(xí)研究,都會(huì)遵從一個(gè)強(qiáng)假設(shè),即獨(dú)立同分布假設(shè),train集合和test集合需是相互獨(dú)立且同分布的。當(dāng)機(jī)器學(xué)習(xí)系統(tǒng)想要應(yīng)用于產(chǎn)業(yè)中的時(shí)候,理想的情況自然也是訓(xùn)練樣本和真實(shí)應(yīng)用場(chǎng)景是同分布的(工業(yè)場(chǎng)景下不一定非得要獨(dú)立,甚至,訓(xùn)練樣本就在使用場(chǎng)景之中,促使一定程度的過(guò)擬合,可能才是工業(yè)比較希望的)。如果應(yīng)用場(chǎng)景是足夠窄,且數(shù)據(jù)足夠多(有監(jiān)督學(xué)習(xí)),或規(guī)則足夠強(qiáng)(強(qiáng)化學(xué)習(xí)),這種理想情況是幾乎可以實(shí)現(xiàn)的,但現(xiàn)實(shí)往往不盡如人意,也就是說(shuō),同分布的假設(shè)大概率要打破。
這也就導(dǎo)致了很多在實(shí)驗(yàn)任務(wù)中打出了不俗分?jǐn)?shù)的模型,到了真實(shí)的使用場(chǎng)景中,往往會(huì)爆發(fā)這樣或那樣的問(wèn)題,導(dǎo)致它無(wú)法應(yīng)用。哪怕是已經(jīng)非常神奇的自監(jiān)督預(yù)訓(xùn)練模型或無(wú)監(jiān)督預(yù)訓(xùn)練模型,在面對(duì)超出分布(out-of-distribution)的場(chǎng)景的時(shí)候,表現(xiàn)也會(huì)掣肘。
與深度學(xué)習(xí)模型不同,人就有著非常強(qiáng)大的領(lǐng)域遷移能力,且這種能力往往又不需要很多的樣本,甚至僅僅需要一些規(guī)則(符號(hào)派的規(guī)則描述),就可以迅速適應(yīng)一個(gè)新的領(lǐng)域。例如,如果看見(jiàn)一張以前完全沒(méi)有見(jiàn)過(guò)的風(fēng)格的照片,人大概也能分辨照片上面有什么,哪怕分辨不了,那他認(rèn)識(shí)了這一張,也會(huì)迅速認(rèn)識(shí)很多類(lèi)似的照片。兩個(gè)使用同樣語(yǔ)言,但受到過(guò)不太一樣的教育的人,在交流的時(shí)候,如果使用的是同一個(gè)語(yǔ)言,那么兩個(gè)人大概率也能進(jìn)行交流,只不過(guò)涉及到專(zhuān)業(yè)的背景時(shí)才可能會(huì)存在交流上的障礙;一個(gè)人在學(xué)習(xí)一個(gè)新的游戲的時(shí)候,可能僅僅需要理解規(guī)則,加上試玩一兩次,就可以掌握這個(gè)游戲的基本玩法,后期對(duì)游戲規(guī)則的認(rèn)識(shí),或者學(xué)習(xí)技巧,也無(wú)非是擴(kuò)充自己對(duì)這個(gè)游戲的認(rèn)識(shí)。
所以,針對(duì)現(xiàn)有的深度學(xué)習(xí)系統(tǒng),或許我們應(yīng)該探索的方向是,怎樣設(shè)計(jì)出一個(gè)能夠很好地面對(duì)超出分布的機(jī)器學(xué)習(xí)系統(tǒng)。
關(guān)于這一問(wèn)題,原文中提出了多種改善方向,包括
膠囊網(wǎng)絡(luò)所使用的用相鄰的成組神經(jīng)元去表示實(shí)體
適應(yīng)多種時(shí)間尺度的權(quán)重設(shè)計(jì)
高層次的認(rèn)知。
這里我想要針對(duì)高層次的認(rèn)知這一部分談一下。
從“感知”到“認(rèn)知”?
文中對(duì)高層次的認(rèn)知的描述,是一種“想象”能力,將現(xiàn)在已經(jīng)學(xué)習(xí)的知識(shí)或技能重新組合,重構(gòu)成為新的知識(shí)體系,隨之也重新構(gòu)建出了一個(gè)新的假想世界(如在月球上開(kāi)車(chē)),這種能力是人類(lèi)天生就被賦予了的,在因果論中,被稱(chēng)作“反事實(shí)”能力。也正如Judea Pearl所代表的因果論體系中所提到的因果關(guān)系之梯,觀察(感知)、干預(yù)、反事實(shí)(認(rèn)知)。
現(xiàn)有的統(tǒng)計(jì)學(xué)習(xí)系統(tǒng)僅僅停留在因果關(guān)系之梯的第一層,即觀察,觀察特征與標(biāo)簽之間的關(guān)聯(lián),而無(wú)法做到更高層次的事情。
當(dāng)然現(xiàn)在也有很多人在做相關(guān)的研究,例如用反事實(shí)的思想去做訓(xùn)練策略(例如二分類(lèi),先假設(shè)當(dāng)前樣本為正例,得到一個(gè)表示,再假設(shè)當(dāng)前樣本為負(fù)例,又得到一個(gè)表示,兩個(gè)表示相減,所剩余的東西,作者即認(rèn)為是真正有用的特征),或者干脆去做對(duì)抗訓(xùn)練(例如文本分類(lèi)中,替換實(shí)體或者遮蔽實(shí)體,試圖找到人去判斷這句話為某一類(lèi)的真正的因素)。這些方法是想要在統(tǒng)計(jì)的限制之內(nèi)試圖去找到真正與答案有“因果”關(guān)系的因素,或者更加宏大的是,找到人類(lèi)關(guān)于這個(gè)問(wèn)題的通用知識(shí)。實(shí)際上當(dāng)我們?cè)诮y(tǒng)計(jì)模型中,通過(guò)去干預(yù)數(shù)據(jù)描述世界的方式,驅(qū)使模型真正模仿了人真正的推理過(guò)程,那么也就是讓模型學(xué)習(xí)到了人類(lèi)關(guān)于這個(gè)任務(wù)的通用知識(shí)。個(gè)人認(rèn)為,如果能驅(qū)使模型學(xué)習(xí)到通用知識(shí),其實(shí)同分布的假設(shè)也就沒(méi)有那么容易被打破了。
這其實(shí)和2年前Welling教授所提到的愿景是類(lèi)似的,Welling教授想要賦予模型演繹的能力,而這三位大佬的文章中則想要讓AI系統(tǒng)學(xué)習(xí)到潛在的因果,能夠從低層次的“感知”到高層次的“認(rèn)知”。
但實(shí)際上,這樣一種系統(tǒng)其實(shí)會(huì)超出現(xiàn)在所有對(duì)神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)等等的定義,會(huì)超出對(duì)統(tǒng)計(jì)模型的定義。統(tǒng)計(jì)模型其本身的原理、結(jié)構(gòu)就限制了其能力,它只能做歸納,卻不能做演繹。那也就是說(shuō),如果想賦予深度學(xué)習(xí)系統(tǒng)認(rèn)知的能力,則需要徹底改變現(xiàn)有深度學(xué)習(xí)系統(tǒng)的模式,包括模型的存在形式,模型“學(xué)習(xí)”的過(guò)程,這可能是想要實(shí)現(xiàn)更強(qiáng)的人工智能的一種必然,卻又無(wú)法想象它會(huì)是以一種什么樣的形式存在,我想,大佬們?cè)谖恼吕锩鏇](méi)有講清楚,也可能這片未來(lái)本就是迷霧重重的。
實(shí)用主義出發(fā)的道路
我的口嗨
AI研究一直分為兩個(gè)學(xué)派,符號(hào)學(xué)派及統(tǒng)計(jì)學(xué)派。符號(hào)學(xué)派從定理證明開(kāi)始,到專(zhuān)家系統(tǒng),到知識(shí)圖譜,以及曾經(jīng)非?;鸨奈宕鷻C(jī)等,實(shí)際上一直在做的事情,就是試圖將我們上文所討論的將人類(lèi)的認(rèn)知能力描述出來(lái),賦予給機(jī)器的過(guò)程。只不過(guò),符號(hào)學(xué)派需要無(wú)數(shù)的人去不斷地窮舉、描述真實(shí)世界的知識(shí),再編寫(xiě)成為機(jī)器所能接受的形式,還要去考慮計(jì)算效率等等的問(wèn)題,繁瑣,效率很低,面對(duì)復(fù)雜的真實(shí)世界,自然會(huì)又種種掣肘,在數(shù)據(jù)量夠大、算力夠便宜的今天,遠(yuǎn)不如統(tǒng)計(jì)學(xué)派來(lái)的優(yōu)雅。
可是我們又不得不承認(rèn),在劃分能力(即定義“否”的能力)上,符號(hào)派相比于統(tǒng)計(jì)派,就是得天獨(dú)厚的。
其實(shí)在統(tǒng)計(jì)學(xué)習(xí)已經(jīng)逐漸觸摸到上限的今天,我們無(wú)法設(shè)想出新的道路,但我們是否可以走走老路呢?例如,統(tǒng)計(jì)學(xué)習(xí)實(shí)際上是去解決人看不過(guò)來(lái)的東西,將復(fù)雜的世界劃分或聚攏成為若干個(gè)分組,每一個(gè)分組去解決不同的問(wèn)題,那其實(shí)使用統(tǒng)計(jì)學(xué)習(xí)到的特征,成為一種規(guī)則觸發(fā),與符號(hào)AI結(jié)合,去解決更加復(fù)雜的問(wèn)題,看似中庸,但使其作為一個(gè)實(shí)用者出發(fā)的道路,是否可以呢?
實(shí)際上,統(tǒng)計(jì)學(xué)習(xí)系統(tǒng)作為一個(gè)輔助決策的工具,已經(jīng)在很多個(gè)領(lǐng)域有這種應(yīng)用了,利用各個(gè)條件執(zhí)行決策的,可能是人,可能是一個(gè)簡(jiǎn)簡(jiǎn)單單的規(guī)則引擎,它雖不優(yōu)雅,但勝在有用。
或許,人工智能的發(fā)展,可能就是要統(tǒng)合,就如同玉女劍法和全真劍法一樣,看似互相克制,但其實(shí)雙劍合璧,卻是真正的威力。
尋求報(bào)道、約稿、文案投放:
添加微信xixiaoyao-1,備注“商務(wù)合作”
后臺(tái)回復(fù)關(guān)鍵詞【入群】
加入賣(mài)萌屋NLP/IR/Rec與求職討論群
后臺(tái)回復(fù)關(guān)鍵詞【頂會(huì)】
獲取ACL、CIKM等各大頂會(huì)論文集!
總結(jié)
以上是生活随笔為你收集整理的深度学习,路在何方?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 真正的高阶特征交叉:xDeepFM与DC
- 下一篇: 数学教育中的AI:NeurIPS’21