GMIS 2017大会邓力演讲:无监督学习的前沿与SPDG方法的优良性
GMIS 2017大會鄧力演講:無監督學習的前沿與SPDG方法的優良性
2017-05-27 11:53:46 ????GMIS 2017??? 0?0?0全球機器智能峰會( GMIS 2017 ),是全球人工智能產業信息服務平臺機器之心舉辦的首屆大會,邀請了來自美國、歐洲、加拿大及國內的眾多頂級專家參會演講。本次大會共計 47 位嘉賓、5 個Session、32 場演講、4 場圓桌論壇、1 場人機大戰,兼顧學界與產業、科技巨頭與創業公司,以專業化、全球化的視角為人工智能從業者和愛好者奉上一場機器智能盛宴。
5 月 27 日,機器之心主辦的為期兩天的全球機器智能峰會(GMIS 2017)在北京 898 創新空間順利開幕。中國科學院自動化研究所復雜系統管理與控制國家重點實驗室主任王飛躍為本次大會做了開幕式致辭,他表示:「未來,人工智能將幫助人類戰勝各種困難」。大會第一天重要嘉賓「LSTM 之父」Jürgen Schmidhuber、Citadel 首席人工智能官鄧力、騰訊 AI Lab 副主任俞棟、英特爾 AIPG 數據科學部主任Yinyin Liu、GE Transportation Digital Solutions CTO Wesly Mukai 等知名人工智能專家參與峰會,并在主題演講、圓桌論壇等互動形式下,從科學家、企業家、技術專家的視角,解讀人工智能的未來發展。
上午,Citadel 首席人工智能官鄧力發表了主題為《無監督學習的最新進展》的演講,他探討分享了無監督學習的優勢,并詳細介紹了隨機原始-對偶梯度方法(SPDG)與其優良的性能,下面我們將一起瀏覽鄧力老師的盛宴。
首先鄧力老師就介紹了無監督學習的概念和強大之處,鄧力表明無監督的學習范式即是深度學習當中的一種范式。也就是我們不給系統提供一個非常具體的信號,你只是告訴它一些信息,讓它以無監督的方式自己學習,能夠很成功地學到你讓它學的東西。
鄧力今天跟大家介紹的一個主流的觀點就是,以預測為中心的無監督的學習的范式,在這個范式里面我們能夠直接完成機器學習的目標,無論是預測還是其他的任務。因為,我們能夠直接把輸入放到系統里面,然后利用無監督學習的機制(機器自己學習),而不需要人類給它一些標簽、標識,利用這種范式就能做出一些非常優良的預測。
隨后鄧力為我們描繪了監督學習如何使用分類器處理標注問題。我們知道監督學習的特點就是有大量的標注數據集,而最新的監督模型總是表現得比無監督預訓練模型更好。那是因為,監督會允許模型能夠更好的編碼數據集上的特征。只不過當模型應用在其他的數據集上時,監督會衰減。
如下圖所示,鄧力首先展示的就是從成對輸入-輸出數據的分類模型。
鄧力老師表明監督學習,即給機器出輸入、輸出的兩種數據,讓它自己去學習,這種情況下它肯定有一個映射了,一對輸入輸出就像一個老師,老師教給這個機器如何進行識別或預測。這個范式非常地成功,在人類已經應用的比方說語言識別和機器翻譯等等方面,都是用這種范式來做的。這種范式十分成功,都是用這種一對對映射的輸入輸出方式來訓練整個系統。
但是另一方面我們可以看到這種方法的成本還是很大的,我們需要給系統提供輸入跟輸出成對的數據。語音識別還好一點,但是其他的應用(比方說翻譯、醫療的應用、圖象識別、視頻相關的任務和醫學影像方面的任務),那么這種映射的輸入輸出成對的訓練方法就太貴了,成本太高了。
在介紹了監督學習的解決方案后,鄧力老師緊接著帶我們概覽了一遍傳統的無監督學習算法。首先就是聚類這一大類,其又包含以下幾種方法:
K-均值聚類:該方法是一種通用目的的算法,聚類的度量基于樣本點之間的幾何距離(即在坐標平面中的距離)。集群是圍繞在聚類中心的族群,而集群呈現出類球狀并具有相似的大小。K 均值聚類是最流行的聚類算法,因為該算法足夠快速、簡單,并且如果你的預處理數據和特征工程十分有效,那么該聚類算法將擁有令人驚嘆的靈活性。
層次聚類:層次聚類最開始由一個數據點作為一個集群,隨后對于每個集群,基于相同的標準進行合并,重復這一過程直到只留下一個集群,因此就得到了集群的層次結構。次聚類最主要的優點是集群不再需要假設為類球形,另外其也可以擴展到大數據集。
其次主要介紹了密度估計類的模型,其中包括:
主題模型:即在機器學習和自然語言處理等領域是用來在一系列文檔中發現抽象主題的一種統計模型。直觀來講,如果一篇文章有一個中心思想,那么一些特定詞語會更頻繁的出現。
生成對抗網絡:GAN 由兩個彼此競爭的深度神經網絡——生成器和判別器組成的。生成模型可以被看作是一隊偽造者,試圖偽造貨幣,不被人發覺,然而辨別模型可被視作一隊警察,努力監察假的貨幣。博弈中的競爭使得這兩隊不斷的改善方法,直到無法從真實的物品中辨別出偽造的。
變分自編碼器:VAE是一類重要的生成模型,現在廣泛地用于生成圖像。與GAN不同的是,我們是知道圖像的密度函數(PDF)的,而GAN并不知道圖像的分布。
鄧力老師隨后表明如果沒有輸入、沒有一個學習材料它怎么學,所以說機器還得有一些學習材料,在這個范式里面要給機器提供一些米、一些學習材料,而又不需要人類提供那些非常成本昂貴的輸入輸出的映射,那怎么辦呢?
在這個世界上有充分的、多元的一些知識的來源,我們可以把它正和島一個整合的系統,然后給系統、給機器,這是一個非常大膽的說法,怎么把世界上既有的多元化的信息分類到各個知識領域。
無監督學習分類器
語言模型能從分離的語料庫中訓練,這樣就移除了成對數據(標注數據),也就不需要大量人力標注。
我們假設是這樣做的,在這個實驗里面我們使用語言模式的信息,既使是我們提供的序列作為輸入給這個機器,它出來的輸出還是不能給出一個明確的標簽,輸出只能給出一個非常泛泛的、很慢的人類語言的標簽。所以我們用真實的語言,我們用語言來作為機器學習的指導。那么自然語言的數據可以是一個很困難的東西,但是我們可以單獨拿出來使用,不把這個自然語言和任何的圖象進行配對。為此我們就極大地降低了培訓的成本、訓練機器的成本。
問題形式化為:
原始問題的成本函數為
該損失函數的問題:成本函數即使是線性模型也高度非凸性。
可以最優化這個目標函數,求出最優參數,然后就可以求出我們所需要的模型。所以鄧力老師跟大家來分享了一下這個成本函數,我們可以看到剛才已經講過了這個目標函數,最開始它是不好的,但是最后迭代以后它會越來越好。我們可以看到從網站里面它跟你的數據訓練是不同的,所以這是很容易建造的,但是卻很難優化。
在鄧力老師的演講中,非常重要的就是采用SPDG在沒有標注的情況下學習如何做預測。那么我們一起來看看鄧力老師如何將前面我們形式化的原始問題轉化為極小極大對偶問題,并采用隨機梯度下降來求得最優參數。(注:以下參考自鄧力等人今年發表的論文:An Unsupervised Learning Method Exploiting Sequential Output Statistics)
為了正確地將隨機梯度下降應用到前面我們形式化問題所得到的損失函數,即最小化損失函數:
我們需要轉換該損失函數以保證其隨t的累和為對數損失。為此,我們首先需要引進凸共軛函數這一概念。給定一個凸函數 f(u),那么其凸共軛函數f * (ν)就定義為:
此外,也可以表示為:
若有函數 f(u) = ? ln u,其中標量 u>0,那么其共軛函數為 ?f* (ν) = ?1 ? ln(?ν),其中標量v<0。因此根據上式定義,我們的函數和共軛函數有以下關系:
其中,sup由max替代,因為上確界是可以用最大化達到的。隨后我們可以將上面的函數代入最開始的損失函數中,而根據拉格朗日對偶性,原始問題的對偶問題是極大極小問題,因此求解原始問題就等價于求解以下極小極大問題(min-max problem):
其中,即V定義為所有對偶變量的集合。 Lt(θ, V )為第t個分量函數:
極小極大問題方程的最優解(θ*,V*)即稱之為函數L(θ,V )的鞍點。一旦求得最優點 (θ*, V*),我們就能保留原始變量θ*作為模型學到的參數。
隨機原始-對偶梯度方法(Stochastic primal-dual gradient method /SPDG)
在上式極小極大問題等價優化式中,我們先關于θ極小化L(θ, V )和關于V極大化L(θ, V )以求得最優解 (θ*,V*)。這樣求得的參數θ即原始問題的最優化解。我們更進一步注意到原始問題的等價式極小極大問題現在是分量函數Lt(θ, V ), t = 1, . . . , T從1到T的累和。
因此,關于θ的極小化和關于V的的極大化可以由隨機梯度下降解出,即L(θ, V ) 關于原始變量θ執行隨機梯度下降、L(θ, V ) 關于對偶變量V執行隨機梯度下降。這樣重復迭代的方式,即隨機原始-對偶梯度(SPDG)方法。為了計算隨機梯度,我們先將L(θ, V )的全批量梯度表示為:
為了計算隨機梯度,我們將每個樣本[I的平均值由各自的隨機抽樣分量(或其小批量均值)替代,如此迭代重復下去(其中tm為集合{1, . . . , T}中的均勻隨機變量)。在上述算法一中,我們使用小批量梯度概述了SPDG方法,其中梯度可以在 TensorFlow 實現中自動計算。此外,對偶變量的負約束(negative constraint)由于在極大極小問題中的內在 log-barrier??而能被自動執行。因此,我們不需要獨立的方法來實現約束條件。
隨后,鄧力老師分析了對偶問題成本函數的損失表面,它表明對偶問題的損失表面具有更優良的性能,執行隨機梯度下降也能得到一個很好的最優解。
最后,鄧力老師總結了本場演講的精要信息點:
最后鄧力老師表明,無監督學習比監督學習更有趣,但是也更困難。我們可以使用更多的一些數據來進行學習,比如說像我剛才所說的 SPDG 方法,該方法不需要進行標記,但它可以直接進行學習來聽聲音的識別或者說做一些翻譯。這樣的一個線性的方式,我們也需要很多的發明來使無監督學習更加地有效。
鄧力說:「其實我們人類還是很有希望的,因為在未來有越來越多的技術以后,人類就可以有更多的價值。」他認為雖然監督學習很有希望,但未來的趨勢還是無監督學習。
總結
以上是生活随笔為你收集整理的GMIS 2017大会邓力演讲:无监督学习的前沿与SPDG方法的优良性的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: GMIS 2017大会Wesly Muk
- 下一篇: 手把手教你用 TensorFlow 实现