数据还是模型?人类知识在深度学习里还有用武之地吗?
文 | Severus
編 | 小戲
近些年來,隨著數據量越來越多,算力價格越來越便宜,根植于數據+算力的深度學習茁壯成長。在這種背景下,作為一種強有力的表示學習方法的深度學習讓人們驚訝的發現,只要投喂足夠多的數據,DNN 模型即可展現出強大的威力。看上去,模型似乎不再需要由人去教它如何看數據了(特征工程)。
從這之后,各個領域、各個任務都相繼出現了不少大規模的預訓練模型,它們從無監督的數據中學習到一些東西,然后再使用小規模任務數據去精調模型,就可以讓模型擁有非常優秀的表現。看上去,模型也不再需要由人去告訴它什么是正確的了,不需要準備大量的數據去“教”它了,只靠模型自己就可以學到“知識”。
同時,這期間也出現了 AlphaGo Zero ,可以完全不需要學習人類的棋譜,通過自己腦補,自己訓練,就可以下出世界第一的圍棋。看上去,模型甚至可以脫離人類的經驗,自己去發現更好、更優的“知識”。
所以自然而然,我們就會去反思,后深度學習時代,模型真的還需要人類的“知識”嗎?
隨著模型規模越來越大,訓練模型的數據越來越多,模型是否還需要人類的知識這一問題也不斷被提起,不斷被爭論。就像 GPT-3 被發布時,哪怕它已經展現出了那么多“神奇”的能力,研究者們依然會去爭論,大模型是否真正學到了知識?是否還需要人類的知識去指導它?
而面對這一切,讓我們從 2019 年的一場爭論談起。
緣起
2019年3月,阿爾伯塔大學教授 Rich Sutton 在博客上發表了一篇文章 《 The Bitter Lesson 》 (慘痛的教訓)[1],開篇就說道:“在70年的AI研究中可以得到的最大的教訓是,利用計算能力的一般方法最終是最有效的方法,且是大幅度的領先。”他認為,盡管在算力恒定的情況下,使用人類知識去提升性能可能是唯一的方法,但正如我們大家所看到的,這些年算力成本卻在持續地指數級下降,在取消算力恒定的約束后,人類知識的重要性也就變得可有可無了,也即是說,提升計算能力才是 AI 研究進步的最一般且最有效的方法。
Sutton 教授舉出來的例子也非常實際,例如前文所提到的 AlphaGo Zero ,在其自學圍棋之后,又迅速擴展到了所有棋類。在其他領域,人們使用各種五花八門的特征工程去訓練模型,而依賴大量計算的 DNN 模型發揮其威力,又打敗了特征工程(如CNN vs SIFT,神經機器翻譯 vs 傳統的對齊方法等)。
最后,Sutton 教授認為,隨著算力的增強去提升“搜索”能力與“學習”能力是唯二的方法可以通用的提升所有 AI 模型與研究的性能和效果。
而心智是極其復雜的東西,應停止試圖用簡單的方法來進行“思考”,已有的“心智”不應該包含在 AI 之中,而是要讓 AI 獲得能夠得到“心智”的能力,AI應當自己去發現,而不是去包含已經發現的東西。
這篇博客自然在學界掀起了軒然大波,支持者們認為,從近些年的工作來看,DNN 的確展現了強大的威力,尤其各大預訓練模型橫空出世,在訓練 DNN 的過程中,也的確在逐漸剝離人類的經驗,未來可能真的僅靠算力就可以了。
反對者則認為,的確看上去 DNN 模型的發展是一步步地在拋棄人類知識,但是其展現威力的原因還是在于那些沒有被拋棄的知識。畢竟現在的 DNN 模型,還是無法避開卷積、LSTM、No-Linear 等人類知識,正是因為利用了一些人類知識,AI 才得以取得今天的成就。
而今天,筆者還是想借著阿姆斯特丹大學教授 Max Welling 于 2019 年 4 月寫的一篇回應文章《Do we still need models or just more data and compute?》[2]淺談一下這個問題。
模型 OR 數據+算力?
Welling 教授是部分認同 Sutton 教授的第二點設想的,即讓模型自己去“發現”這個世界的一些“知識”——如物理學、心理學、社會學等規律。但是問題在于,Sutton 的想法是完全理想化的,即數據是絕對充足的,在現實中,數據往往不是那么的充足,比如強化學習的確在圍棋上取得了非常大的成就,但我們不能忽略,圍棋是一個有強規則限制,且數據近乎無限(已有規則之內,可以任意生成對弈數據)的任務。但是如果到了自動駕駛的場景,每一個問題則又變得長尾。
在文章中,Welling 教授提出了自己的方法。數據不足其實是真實世界的常態,所以使用大量的人類知識也是AI的常態。理想狀況下當然是真實世界每一個問題中,每一個領域中數據都是充足的,但這又顯然是不可能的。當然,領域這么多,總會有那么若干個領域數據是足夠的,而在充足的數據中,也是可以訓練出一個非常好的模型的。
但是問題就在于,從足夠的數據中所訓練出來的模型,只具備歸納能力(原文為 Discriminative methods,即判別模型),而我們又需要從模型中剝離原本數據的歸納偏置,只留下“知識”(原文為講判別模型反推成為一個生成模型,其實就是讓模型具備演繹能力),那么該模型就可以輕松地遷移到新的領域了。
例如,我們要訓練一個語言模型,在訓練好了之后,卻又讓模型忘掉訓練數據中的“事實”(如劉德華的老婆是朱麗倩)而僅剩下知識(【男人】的老婆是【女人】),那么這個語言模型就可以去“想象”其他的文本,那它就適用于任何類似的文本了。
這正是人類自身具備的一個強大的能力——“反事實”的能力,即在腦中想象一個不存在的世界的能力,例如我如果做了某件事會發生什么,如果某件事沒有發生,現在會怎么樣。Welling 教授認為,人具備這種能力的程度,恰恰又取決于他對這個世界知識的了解程度(如物理學、心理學知識等)。
當然符號 AI 就是以這種方式構筑的,但它又受限于專家所寫的規則,無法應對復雜的世界(Sutton 教授所秉持的觀點)。
而如果有一個 AI 具備了從數據中學習這種東西的能力( Welling 教授認為是基于強化學習方法),的確,可以只使用一點點人類知識,以及充足的算力,就可以訓練出來一個 AGI(通用人工智能) ,至于這個模型還是不是使用人類所設計的結構(畢竟人類設計的模型結構也是人類知識),那就不知道了。
筆者的一點想法
Welling 教授的想法和愿景,筆者是大部分同意的,或者說,筆者前幾年秉持的觀點,在做的工作,其實就是想要訓練出來一個“只有知識,沒有事實”的語言模型。現在的想法,也是想在部分問題上讓模型做到“知識化”(雖然部分是符號的做法),但關于現狀,筆者也想談談自己粗淺的想法。
首先,Sutton 教授所舉的例子(本質上是 DNN 表示學習 vs 特征工程),實際上也是沒有脫離人類知識的。例如圍棋,游戲規則就是人類知識,整個就是在游戲規則下走下去的。
而且包括下棋在內的,所有的 DNN 模型,雖然人類不去指導模型去“怎么看數據”了,但人類還是在指導模型“應該看什么,注意看哪些”。即上面所討論的所有關于模型結構的部分,哪怕是可以從數學上證明,部分模型結構雖然看上去差別挺大,但是從特征捕捉的角度來講是等價的,但仍舊沒有脫離它。
從最初的 MLP 到現在大流行的 Transformers ,我們就是不斷地在教模型怎么樣去看數據,同時,我們也在不斷地用數據分布試圖去描述這個模型所要面對的世界,預訓練模型亦是如此。這么說來,只不過如 Welling 教授所說,我們用的知識變少了而已。
而 Welling 教授所講反事實部分,人類的確是擁有了一定的規則,甚至是規律之后,就會進行“反事實”思考,但問題卻不在判別模型與生成模型,而是現如今的統計模型,都難以做到。Welling 教授就判別模型的評價更像是對整個統計模型的評價:統計模型只能進行歸納,卻無法進行演繹( Welling 教授對生成模型的描述更像是一種演繹能力),而如 《 The book of WHY 》 作者在書中所說:統計學習只能去尋找關聯,而不能得到因果。所以或許 Welling 所提到的愿景,現如今也只能是愿景。
更簡單地說,統計模型所學的一切,都只是“是什么”,而學不到“不是什么”,那么它其實就完全無法分辨真和假,這其實就直接導致它是無法將學到的東西應用到完全未知的領域的。預訓練模型起到作用,其實也是因為數據足夠大,且足夠通用了,讓模型見過了絕大多數下游任務的數據,學到了足夠的關聯,而到了未知的專業領域,其同樣又會掣肘。
更玄幻一點兒,也是筆者會感到無力的地方,則是,人類現階段是不具備描述知識的能力的,自然也無法描述自己是怎么樣學到的知識,以及學到了什么樣的知識。那么,如何去探尋模型怎樣擁有這樣的能力,或許還前路茫茫,但研究者們仍以不同的方式探索,或許有一日真的找到了,那我們也自然期待人工智能真正的大變革。
爭論與未來
Sutton 教授的博客中寫的內容其實比較客觀合理,他并不是秉持算力與算法對立的極端觀點,雖然其部分說法像是試圖挑起這種對立。而這件事情在學術圈開始爭論的時候,卻又走向了算法 vs 算力的方向。Welling 教授前面看上去反駁了 Sutton 教授的觀點,強調了人類知識的作用,但后面他也還在部分認同 Sutton 教授。
Welling 教授所反駁的 Sutton 教授所闡述的數據規模的問題、其他反對者所提到的模型結構的問題以及所謂的自己學習的模型是否利用了人類經驗的問題等等,看上去似乎是“顯而易見”且沒必要爭論的,那么大佬們為什么要掀起來這場爭論呢?
首先我是相信大佬的智商和知識儲備的,就好像訓練 GPT-3 的大佬們,我認為他們是不可能不知道統計模型的局限的。但是在 PR 的時候又會說 GPT-3 的種種“智能”。那么當大佬們在鼓吹這些看上去不切實際的言論的時候,他們到底想要干什么呢?
其實回顧人工智能幾十年的歷史,技術在發展的同時,又往往免不了各個派系之間的爭辯,而每一次的爭辯,都不免會有一些看上去不切實際,甚至完全沒有邏輯支撐的構想,或者產生一些完全斷章取義的攻擊,它們或是想要提出一個努力的目標,或是單純想打敗對面的立場,或是僅僅就是想保持自己研究方向的討論熱度,畢竟討論趨勢到了,這個方向才能有各方面的支撐繼續發展下去。
而現如今,Twitter 的每一場論戰,或許也是要去“欺騙”輿情系統,讓這個領域繼續保持繁榮。而每一次這樣的爭論,哪怕是有這種目的,其碰撞的火花也能讓我們有一些新的思考,這是對我們受用無窮的。
尋求報道、約稿、文案投放:
添加微信xixiaoyao-1,備注“商務合作”
后臺回復關鍵詞【入群】
加入賣萌屋NLP/IR/Rec與求職討論群
后臺回復關鍵詞【頂會】
獲取ACL、CIKM等各大頂會論文集!
?
[1].The Bitter Lesson http://incompleteideas.net/IncIdeas/BitterLesson.html
[2].Do we still need models or just more data and compute? https://staff.fnwi.uva.nl/m.welling/wp-content/uploads/Model-versus-Data-AI-1.pdf
總結
以上是生活随笔為你收集整理的数据还是模型?人类知识在深度学习里还有用武之地吗?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: NIPS’20 Spotlight |
- 下一篇: 美团NLP中心算法实习生内推啦!