GMIS 2017 大会陈雨强演讲:机器学习模型,宽与深的大战
GMIS 2017 大會陳雨強演講:機器學習模型,寬與深的大戰
2017-05-27 19:15:36 ????GMIS 2017??? 1?0?05 月 27 日,機器之心主辦的為期兩天的全球機器智能峰會(GMIS 2017)在北京 898 創新空間順利開幕。中國科學院自動化研究所復雜系統管理與控制國家重點實驗室主任王飛躍為本次大會做了開幕式致辭,他表示:「我個人的看法是再過幾年,我們90%的工作是人工智能提供的,就像我們今天大部分工作是機器提供的一樣。我們知道人工智能會給我們提供一個更美好的未來。」大會第一天重要嘉賓「LSTM 之父」Jürgen Schmidhuber、Citadel 首席人工智能官鄧力、騰訊 AI Lab 副主任俞棟、英特爾 AIPG 數據科學部主任 Yinyin Liu、GE Transportation Digital Solutions CTO Wesly Mukai 等知名人工智能專家參與峰會,并在主題演講、圓桌論壇等互動形式下,從科學家、企業家、技術專家的視角,解讀人工智能的未來發展。
下午,第四范式聯合創始人、首席研究科學家陳雨強發表了主題為《機器學習模型:寬與深的大戰》的演講,他不僅探討分享了學界中的深度模型和工業界中的寬度模型,同時還分析了這兩種模型的各自特點。以下是該演講的主要內容:
工業界需要可擴展的機器學習系統
人工智能的興起是計算能力、機器學習以及分布式計算發展的結果。在實際的工業界之中,我們需要一個可擴展的機器學習系統(Scalable Machine Learning System),而不僅僅是一個可擴展系統(Scalable System)。
第一點,數據處理的能力隨機器的增加而增加,這是傳統的可擴展。第二點,智能水平和體驗壁壘要隨著業務、數據量的增加而同時增加。這個角度的 Scalable 是很少被提到的,但這個層面上的可擴展性才是人工智能被推崇的核心原因。
比如,過去建立競爭壁壘主要通過業務創新或是通過借助新的渠道(比方說互聯網)提升效率。在這樣的方式中,由于產品本身相對容易被抄襲,那么資本投入、運營與渠道是關鍵。但隨著數據的增加與 AI 的普及,現在有了一種新的方式,就是用時間與數據創造壁壘。可以看出,由人工智能產生的競爭壁壘是不斷循環迭代而得到提升、更容易拉開差距的高墻。
可擴展的機器學習系統需要高 VC 維
我們知道 VC 維理論,該理論形式化地描述了機器學習算法對復雜函數擬合的能力。在機器學習中,VC 維度越高,模型越復雜,所需要的數據量也越多。
如上圖所示,因為過去的數據不大,訓練損失函數在不斷下降,而測試損失函數則先下降再上升。因此有小數據量的模型要避免過擬合,VC 維就不能太高。因此我們需要控制 VC 維,以讓訓練數據的測試損失和訓練損失同時下降。
但隨著如今數據量劇增,我們發現低 VC 維模型效果并不理想,但高的 VC 維模型的性能在不斷上升。因此,在我們有越來越多數據時,要關心的是欠擬合而不是過擬合,要關心的是怎樣提高 VC 維讓模型更加聰明。
因此,如果要成功在工業界使用人工智能,VC 維是非常重要的問題。
如果我們已經有很多數據,那么提升 VC 維的方法有兩條:一種是從特征提升,一種是從模型提升。我們把特征分為兩類:一類特征叫宏觀特征,比如描述類特征如年齡、統計類特征如整體的點擊率、或整體的統計信息;另一類為微觀特征,最典型的是 ID 類的特征,每個人都有特征,每個物品也有特征,人和物品組合也有特征。相應的模型也分為兩類,一部分是簡單模型如線性模型,另一類是復雜模型如深度學習模型。因此,我們可以引出工業界機器學習四個象限的概念。
模型 X 特征,工業界機器學習的四個象限
如上圖所示,第一象限是簡單模型加宏觀特征,在現在的工業界比較難以走通,很難得到極致化的優化效果。這個象限內,要解決的問題是怎樣找出特征之間的關系與各自的統計特性。
第二象限是簡單模型加復雜特征,最成功的典型案例是 Google AdWords。Google AdWords 占 Google 70% 以上的收入,Google 的展示廣告也是用的這樣的技術,占了 Google 大概剩下的 20% 左右的收入。
第三象限是復雜模型、宏觀特征典型的應用,比如 Bing ads,2013 年他們提出 BPR(Bayesian Probit Regression)來 Model 每個特征的置信度。
第四象限,復雜模型和微觀特征,現在還是熱門研究的領域,它最難的一點是模型的規模實在太大。這種模型可能會有極其巨量的參數。雖然數據很多,但如此多的參數還是很難還是難以獲得的。所以怎么解決模型的復雜問題、正則化問題,還是目前研究的重要方向。
如何沿著模型優化?
沿著模型優化主要由學術界主導。他們主要的研究是非線性模型,總結起來有三種方法:核函數、提升方法和深度神經網絡。提升方法和深度神經網絡現在非常流行,提升方法最經典的是梯度提升樹(GBDT),而深度神經網絡也在很多行業產生了顛覆性的變化。大約十年前,核函數也是很流行的。借助核函數,支持向量機(SVM)有了異常強大的非線性能力。
對于工業界中的具體問題,基于思考或觀察得到新的假設,加入新的模型、結構,以獲得更多的參數,這是工業界優化這一項限的步驟。
因此,通過機器學習首先,觀察數據;第二,找到規律;第三,根據規律做模型的假設;第四,對模型假設中的參數用數據進行擬合;第五,把擬合的結果用到線上,看看效果怎么樣。這是模型這條路在工業界上優化的方法。
如何沿特征優化?
特征優化主要是工業界主導的。就像剛才提到的,Google 使用了上千億的特征,百度也使用了上千億的特征,這些特征都是從最細的角度描述數據,模型也是簡單粗暴。
沿模型優化這條路的主要特點是什么?模型一定是分布式的,同時工程挑戰是非常大的。針對這些難點,很多會議上都在研究如何高效并行,以及如何保證高效并行的時候快速收斂。ASP、BSP 等模型和同步、異步的算法,都是為了保證高效分布式的同時能快速收斂。
應為線性模型理論較為成熟,工業界對模型本身的優化相對沒有那么多,其更主要的工作是針對具體的應用提取特征。之所以有那么多特征,是因為我們對所有觀察到的微觀變量都進行建模。
所以,當我們不能給出比較好的數據假設時,不知道為什么產生突變時,可以更多的依賴數據,用潛在參數建模可能性,通過數據學到該學的知識。
寬度還是深度?
那么沿著寬度走好還是沿著深度走好?其實并沒有那個模型在所有情況下都更好,換一句話說機器學習沒有免費的午餐(No Free-Lunch):不存在萬能模型。
沒有免費午餐定理,即所有的機器學習都是一個偏置,這個偏置是代表你對于數據的假設,偏置本身不會有誰比誰更好這樣的概念。如果使用更多的模型假設,就需要更少的數據,但如果模型本身越不符合真實分布,風險就越大。當然我們也可以使用更少的模型假設,用數據支持模型,但你需要更多的數據支持,更好的特征刻畫,然后表示出分布。總結起來對于我們工業界來說,機器學習并沒有免費的午餐,一定要做出對業務合適的選擇。
寬與深的大戰?
追求更高的 VC 維有兩條路:一個是走寬的、離散的那條路,即 Google AdWords 的道路;也可以走深的那條路,比如深度學習。這就是深與寬的大戰,因為寬與深在工業界都有非常成功的應用案例,堅信寬與深的人很長一段時間是并不互相理解的。堅信深度學習、復雜模型的人認為,寬的道路模型太簡單了,20 年就把所有的理論研究透徹,沒有什么更多的創新,這樣的技術不可能在復雜問題上得到好的結果。堅信寬的模型的人,攻擊深度模型在某些問題上從來沒有真正把所有的數據都用好,從來沒有發揮出數據全部的價值,沒有真正的做到特別細致的個性化。的確深度模型推理做得好,但個性化、記憶方面差很多。
寬與深的模型并沒有誰比誰好,這就是免費午餐定理:不同業務使用不同的模型,不同的模型有不同的特點。我們對比一下寬度模型與深度模型:寬度模型有比較準確的記憶能力,深度模型有比較強的推理能力;寬度模型可以說出你的歷史,在什么情況下點過什么廣告,深度模型會推理出下次你可能喜歡哪一類東西。寬度模型是依靠層次化特征進行泛化的,有很強的解釋性,雖說特征很多,但是每一個預估、為什么有這樣的預估、原因是什么,可以非常好的解釋出來;深度模型是非常難以解釋的,你很難知道為什么給出這樣的預估。寬度模型對平臺、對工程要求非常高,需要訓練數據非常多、特征非常多;深度模型對訓練數據、對整個模型要求相對較低一點,但現在也是越來越高的。還有一個非常關鍵的區別點,如果你是 CEO、CTO,你想建一個機器學習的系統與團隊,這兩條路有非常大的區別。寬度模型可以比較方便與統一的加入業務知識,所以優化寬度模型的人是懂機器學習并且偏業務的人員,把專業的知識加入建模,其中特征工程本身的創新是提升的關鍵;如果走深度模型,模型的創新是關鍵,提升模型更關鍵來自于做 Machine Learning 的人,他們從業務獲得知識并且得到一些假設,然后把假設加入模型之中進行嘗試。
同時寬與深的結合已經逐漸成為一個研究熱點,Google 在 16 年 4 月份發表的一篇論文,介紹他們的最新工作「Deep & Wide Model」。模型分為 Deep 與 Wide 兩部分,好處是它既能對比較細的特征有記憶,同時也有推理的能力。我們認為將來的方向都應該朝這路走。
除此之外,近期還有不少工作在探索這個方向,總的來說這方面還是非常前沿的、非常熱門的研究領域。
如何上線:從監督學習到強化學習
不管是寬模型、深模型還是兼顧寬與深的模型,其實線下做好的模型實際上是一個監督學習模型,并不能保證它線上效果好。
最后跟大家分享一點,寬度和深度其實是兩條路數、兩個派系。在我們想替換的時候,就會發現深度模型很難把它替換成寬度模型,或者寬度模型很難把它替換成深度模型。因為如果我們真正把它應用于線上系統時,其實是一個強化學習問題,而不只是簡單的機器學習問題。你在線上使用的時候會發現,你碰到的數據和你線下訓練的數據是不一樣的,你的基線模型效果越好,你的數據是越有偏差,訓練出來的模型越難真正在線上產生好的效果。所以說,我們需要有很多機制讓這個事情做得更好,包括更多的強化學習等方式。
最后總結一下,深度學習和寬度學習,其實并沒有誰比誰一定更好,我們要針對具體的業務,選擇最合適你的機器學習框架、機器學習模型來解決我們的問題。
總結
以上是生活随笔為你收集整理的GMIS 2017 大会陈雨强演讲:机器学习模型,宽与深的大战的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: GMIS 2017大会杨强演讲:迁移学习
- 下一篇: GMIS 2017 大会余凯演讲:深度学