深度学习研究综述
摘要: 深度學(xué)習(xí)是一類新興的多層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法。因其緩解了傳統(tǒng)訓(xùn)練算法的局部最小性, 引起機(jī)器學(xué)習(xí)領(lǐng)域的廣泛關(guān)注。首先論述了深度學(xué)習(xí)興起淵源, 分析了算法的優(yōu)越性, 并介紹了主流學(xué)習(xí)算法及應(yīng)用現(xiàn)狀,最后總結(jié)當(dāng)前 ...
from:?http://www.dataguru.cn/article-3358-1.html
| 摘要:深度學(xué)習(xí)是一類新興的多層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法。因其緩解了傳統(tǒng)訓(xùn)練算法的局部最小性, 引起機(jī)器學(xué)習(xí)領(lǐng)域的廣泛關(guān)注。首先論述了深度學(xué)習(xí)興起淵源, 分析了算法的優(yōu)越性, 并介紹了主流學(xué)習(xí)算法及應(yīng)用現(xiàn)狀,最后總結(jié)當(dāng)前存在的問題及發(fā)展方向。 引言: 深度學(xué)習(xí)的概念源于人工神經(jīng)網(wǎng)絡(luò)的研究, 含多隱層的多層感知器(MLP) 就是一個深度學(xué)習(xí)結(jié)構(gòu)。深度學(xué)習(xí)通過組合低層特征形成更加抽象的高層表示( 屬性類別或特征) , 以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示[1]。BP算法作為傳統(tǒng)訓(xùn)練多層網(wǎng)絡(luò)的典型算法, 實(shí)際上對僅含幾層網(wǎng)絡(luò), 該訓(xùn)練方法就已很不理想[2]。深度結(jié)構(gòu)( 涉及多個非線性處理單元層) 非凸目標(biāo)代價函數(shù)中普遍存在的局部最小是訓(xùn)練困難的主要來源。Bengio 等人[ 3,4 ]基于深信度網(wǎng)(DBN ) 提出非監(jiān)督貪心逐層訓(xùn)練算法, 為解決深層結(jié)構(gòu)相關(guān)的優(yōu)化難題帶來希望, 隨后提出多層自動編碼器深層結(jié)構(gòu)。此外Lecun等人[5]提出的卷積神經(jīng)網(wǎng)絡(luò)(CNNs) 是第一個真正多層結(jié)構(gòu)學(xué)習(xí)算法。它利用空間相對關(guān)系減少參數(shù)數(shù)目以提高BP訓(xùn)練性能。此外深度學(xué)習(xí)還出現(xiàn)許多變形結(jié)構(gòu)如去噪自動編碼器[6]、DCN[7]、sumprodct[8]等。 當(dāng)前多數(shù)分類、 回歸等學(xué)習(xí)方法為淺層結(jié)構(gòu)算法, 其局限性在于有限樣本和計算單元情況下對復(fù)雜函數(shù)的表示能力有限, 針對復(fù)雜分類問題其泛化能力受到一定制約[2]。深度學(xué)習(xí)可通過學(xué)習(xí)一種深層非線性網(wǎng)絡(luò)結(jié)構(gòu), 實(shí)現(xiàn)復(fù)雜函數(shù)逼近,表征輸入數(shù)據(jù)分布式表示, 并展現(xiàn)了強(qiáng)大的從少數(shù)樣本集中學(xué)習(xí)數(shù)據(jù)集本質(zhì)特征的能力[1,9]。 本文意在向讀者介紹這一剛剛興起的深度學(xué)習(xí)新技術(shù)。 深度學(xué)習(xí)神經(jīng)學(xué)啟示及理論依據(jù) 1.深度學(xué)習(xí)神經(jīng)學(xué)啟示 盡管人類每時每刻都要面臨著大量的感知數(shù)據(jù), 卻總能以 一種靈巧方式獲取值得注意的重要信息。模仿人腦那樣高效 準(zhǔn)確地表示信息一直是人工智能研究領(lǐng)域的核心挑戰(zhàn)。神經(jīng) 科學(xué)研究人員利用解剖學(xué)知識發(fā)現(xiàn)哺乳類動物大腦表示信息 的方式: 通過感官信號從視網(wǎng)膜傳遞到前額大腦皮質(zhì)再到運(yùn)動 神經(jīng)的時間, 推斷出大腦皮質(zhì)并未直接地對數(shù)據(jù)進(jìn)行特征提取 處理, 而是使接收到的刺激信號通過一個復(fù)雜的層狀網(wǎng)絡(luò)模 型, 進(jìn)而獲取觀測數(shù)據(jù)展現(xiàn)的規(guī)則[ 10~12 ]。也就是說, 人腦并不 是直接根據(jù)外部世界在視網(wǎng)膜上投影, 而是根據(jù)經(jīng)聚集和分解 過程處理后的信息來識別物體。因此視皮層的功能是對感知 信號進(jìn)行特征提取和計算, 而不僅僅是簡單的重現(xiàn)視網(wǎng)膜的圖 像[13]。人類感知系統(tǒng)這種明確的層次結(jié)構(gòu)表明, 極大地降低 了視覺系統(tǒng)處理的數(shù)據(jù)量, 并保留了物體有用的結(jié)構(gòu)信息。對 于要提取具有潛在復(fù)雜結(jié)構(gòu)規(guī)則的自然圖像、 視頻、 語音和音 樂等結(jié)構(gòu)豐富數(shù)據(jù), 深度學(xué)習(xí)能夠獲取其本質(zhì)特征。? 受大腦結(jié)構(gòu)分層次啟發(fā), 神經(jīng)網(wǎng)絡(luò)研究人員一直致力于多 層神經(jīng)網(wǎng)絡(luò)的研究。B P算法是經(jīng)典的梯度下降并采用隨機(jī)選 定初始值的多層網(wǎng)絡(luò)訓(xùn)練算法。但因輸入與輸出間非線性映 射使網(wǎng)絡(luò)誤差函數(shù)或能量函數(shù)空間是一個含多個極小點(diǎn)的非 線性空間, 搜索方向僅是使網(wǎng)絡(luò)誤差或能量減小的方向, 因而經(jīng)常收斂到局部最小, 并隨網(wǎng)絡(luò)層數(shù)增加情況更加嚴(yán)重。理論和實(shí)驗(yàn)表明 B P算法不適于訓(xùn)練具有多隱層單元的深度結(jié)構(gòu)[14]。此原因在一定程度上阻礙了深度學(xué)習(xí)的發(fā)展, 并將大多數(shù)機(jī)器學(xué)習(xí)和信號處理研究, 從神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)移到相對較容易訓(xùn)練的淺層學(xué)習(xí)結(jié)構(gòu)。 傳統(tǒng)機(jī)器學(xué)習(xí)和信號處理技術(shù)探索僅含單層非線性變換 的淺層學(xué)習(xí)結(jié)構(gòu)。淺層模型的一個共性是僅含單個將原始輸 入信號轉(zhuǎn)換到特定問題空間特征的簡單結(jié)構(gòu)。典型的淺層學(xué) 習(xí)結(jié)構(gòu)包括傳統(tǒng)隱馬爾可夫模型 (HMM) 、 條件隨機(jī)場 (CRFs ) 、 最大熵模型(MaxEnt ) 、 支持向量機(jī)( SVMs ) 、 核回歸及 僅含單隱層的多層感知器(MLP) 等。 2.淺層結(jié)構(gòu)函數(shù)表示能力的局限性 早期淺層結(jié)構(gòu)局限性結(jié)論是關(guān)于利用邏輯門電路實(shí)現(xiàn)函 數(shù)奇偶性問題。利用一個深度為0(logd ) 的網(wǎng)絡(luò)用 0(d) 個 計算節(jié)點(diǎn)去計算一個d比特和的奇偶性, 而對于兩層網(wǎng)絡(luò)則需 要指數(shù)倍數(shù)目的計算單元。隨后又有學(xué)者指出可以利用深度 為 K的多項(xiàng)式級的邏輯門電路實(shí)現(xiàn)的函數(shù), 對于 k-1層電路 需要指數(shù)倍的計算節(jié)點(diǎn)。文獻(xiàn)[9] 指出深度學(xué)習(xí)結(jié)構(gòu)可以很 簡潔地表示復(fù)雜函數(shù), 否則一個不合適的結(jié)構(gòu)模型將需要數(shù)目 非常大的計算單元。這里簡潔包含三方面內(nèi)容: a) 需要的數(shù) 據(jù)量特別是帶類標(biāo)記的樣本; b) 需要的計算單元的數(shù)目; c) 需 要的人為先驗(yàn)知識。 例如多項(xiàng)式可以高效地 ( 相對于需訓(xùn)練的計算單元數(shù)目) 利用 0(mn) 運(yùn)算量表示成和 積(sum-product) 結(jié)構(gòu), 如果表示成積和結(jié)構(gòu), 將需要0(nm) 計 算量。此外文獻(xiàn)[15 ] 指出存在一大類函數(shù)不能用淺層電路表 示。這些數(shù)學(xué)結(jié)果指出了淺層學(xué)習(xí)網(wǎng)絡(luò)的局限性, 激發(fā)了利用 深度網(wǎng)絡(luò)對復(fù)雜函數(shù)建模的動機(jī)。 3.局部表示、 分布式表示和稀疏表示 最近許多研究者已經(jīng)研究了分布式表示的一個變體, 它介于純粹局部表示和稠密分布式表示之間— — —稀疏表示。它的 思想是盡量要求所獲取表示中只有少數(shù)維是有效的, 使絕大多數(shù)維設(shè)為0或接近于 0的無效維。目的是盡量找出信號的主要驅(qū)動源。基于模板匹配的模型可認(rèn)為含兩層計算單元, 第一層構(gòu)建對輸入數(shù)據(jù)進(jìn)行匹配的多個模板, 每一匹配單元可輸出一匹配度; 第二層采用特定機(jī)制融合第一層的輸出匹配度。典型基于局部匹配的例子是核方法。 這里 b 和 α i形成第二計算層。核函數(shù) K( x, xi ) 將輸入x匹配到訓(xùn)練樣本 xi, 并在全局范圍求和。式(1) 的結(jié)果可作為分類器的區(qū)分類標(biāo)簽, 或者回歸預(yù)測器的預(yù)測值。利有局部核函數(shù)的核方法能獲取泛化性能, 因其利用光滑性的先驗(yàn)知識,即目標(biāo)函數(shù)可利用光滑函數(shù)逼近。在監(jiān)督學(xué)習(xí)中, 由訓(xùn)練樣本(xi,yi)組建預(yù)測器, 當(dāng)輸入 x與 xi靠近時, 輸出接近 yi。通常這是合理假設(shè), 但文獻(xiàn)[ 9 ] 中指出當(dāng)目標(biāo)函數(shù)非常復(fù)雜時, 這樣的模型泛化能力很差。其原因是利用局部估計學(xué)習(xí)算法表示函數(shù)時。一個局部估計子將輸入空間進(jìn)行切分, 并需要不同自由度參數(shù)來描述目標(biāo)函數(shù)在每一區(qū)域的形狀。當(dāng)函數(shù)較為復(fù)雜時, 需要利用參數(shù)進(jìn)行描述的區(qū)域數(shù)目也是巨大的。固定核函數(shù)的這種局限性已引起基于先驗(yàn)知識設(shè)計核函數(shù)的研究,而如果缺乏足夠的先驗(yàn)知識是否可通過學(xué)習(xí)獲取一個核函數(shù)?該問題同樣引起大量研究。Lanckriet?等人[ 16 ]提出利用半正定規(guī)劃技術(shù)學(xué)習(xí)數(shù)據(jù)的核矩陣, 然后利用該核矩陣獲取較好的泛化性能。然而當(dāng)學(xué)習(xí)到的核函數(shù)相互關(guān)聯(lián)時, 能否獲取更加簡潔的表示。深度學(xué)習(xí)即基于這種思想并通過多次網(wǎng)絡(luò)學(xué)習(xí)輸入樣本的分布式表示, 被認(rèn)為是較有前景的方法。 分布式表示[ 17 ]是在機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)研究中可以處理 維數(shù)災(zāi)難, 和局部泛化限制的一個古老的思想。如圖 1所示, 分布式表示由一系列有可能是統(tǒng)計獨(dú)立的顯著特征組成, 與局 部泛化的方法向?qū)Ρ?#xff0c; 基于分布式表示的可區(qū)分模式的數(shù)目與 分布式表示的維數(shù)( 學(xué)習(xí)到的特征) 是指數(shù)倍關(guān)系的。參數(shù)數(shù) 目上的減少對統(tǒng)計機(jī)器學(xué)習(xí)是非常有意義的, 因?yàn)椴粌H可以降 低運(yùn)算量, 同時僅需相對較少的樣本即可避免過擬合現(xiàn)象的發(fā) 生。而聚類算法和最近鄰算法等局部表示算法將輸入空間切 分如圖 1左側(cè)所示, 不同局部之間是互斥的, 不能形成簡潔的 分布式表示。I C A、 P C A和 R B M等算法用較少的特征將輸入 空間切分如圖 1右側(cè)所示, 并構(gòu)建分布式表示, 參數(shù)數(shù)目和需 要的樣本數(shù)要比子區(qū)域的數(shù)目少得多, 這也是為什么會對未觀 測數(shù)據(jù)泛化的原因。P C A和 I C A可以獲取輸入的主要分量信 息, 但對于輸出信號數(shù)目小于輸入信號數(shù)目時, 不能很好地解 決欠定問題。文獻(xiàn)[ 1 8 ] 中提出了利用自聯(lián)想神經(jīng)網(wǎng)絡(luò)來提取 數(shù)據(jù)的非線性主分量的方法, 該學(xué)習(xí)方法的目的是通過事物的 部分信息或者帶噪聲的信息來還原事物的本來信息。自聯(lián)想 神經(jīng)網(wǎng)絡(luò)的隱層節(jié)點(diǎn)數(shù)目少于輸入節(jié)點(diǎn)數(shù)目時, 可認(rèn)為在自聯(lián) 想過程中, 這些隱層能夠保留數(shù)據(jù)集中的主要信息。多層神經(jīng) 網(wǎng)絡(luò)和Boltzmann機(jī)已被用于學(xué)習(xí)分布式表征。文獻(xiàn)[ 19] 已 證明利用 DBN學(xué)習(xí)特征空間對高斯過程回歸的性能進(jìn)行提 高。深度學(xué)習(xí)算法可以看成核機(jī)器學(xué)習(xí)中一個優(yōu)越的特征表 示方法。文獻(xiàn)[ 2 ] 指出單個決策樹的泛化性能隨目標(biāo)函數(shù)變 量增加而降低。多個樹的集成( 森林) 比單個樹更加強(qiáng)大, 也 是因?yàn)樵黾恿艘粋€第三層, 并潛在地形成分布式表示, 可表達(dá) 與子樹數(shù)目指數(shù)倍個的分布。 4.深度學(xué)習(xí)成功的關(guān)鍵 深度學(xué)習(xí)具有多層非線性映射的深層結(jié)構(gòu), 可以完成復(fù)雜的函數(shù)逼近是深度學(xué)習(xí)優(yōu)勢之一; 此外深度學(xué)習(xí)理論上可獲取 分布式表示, 即可通過逐層學(xué)習(xí)算法獲取輸入數(shù)據(jù)的主要驅(qū)動變量。該優(yōu)勢是通過深度學(xué)習(xí)的非監(jiān)督預(yù)訓(xùn)練算法完成。通過生成性訓(xùn)練可避免因網(wǎng)絡(luò)函數(shù)表達(dá)能力過強(qiáng), 而出現(xiàn)過擬合情況。但由于單層有限的計算能力, 通過多層映射單元可提取出主要的結(jié)構(gòu)信息。文獻(xiàn)[14] 深入分析并通過實(shí)驗(yàn)驗(yàn)證了貪婪層次非監(jiān)督深度學(xué)習(xí)方法優(yōu)勢所在。 典型的深度學(xué)習(xí)結(jié)構(gòu) 深度學(xué)習(xí)涉及相當(dāng)廣泛的機(jī)器學(xué)習(xí)技術(shù)和結(jié)構(gòu), 根據(jù)這些結(jié)構(gòu)和技術(shù)應(yīng)用的方式。可以將其分成如下三類: a ) 生成性深度結(jié)構(gòu)。該結(jié)構(gòu)描述數(shù)據(jù)的高階相關(guān)特性,或觀測數(shù)據(jù)和相應(yīng)類別的聯(lián)合概率分布。 b ) 區(qū)分性深度結(jié)構(gòu)。目的是提供對模式分類的區(qū)分性能力。通常描述數(shù)據(jù)的后驗(yàn)分布。 c ) 混合型結(jié)構(gòu)。它的目標(biāo)是區(qū)分性的, 但通常利用了生成型結(jié)構(gòu)的輸出會更易優(yōu)化。 1.生成型深度結(jié)構(gòu) 文獻(xiàn)[ 2 1 ] 首次提出的 D B N是目前研究和應(yīng)用都比較廣泛的深度學(xué)習(xí)結(jié)構(gòu)。與傳統(tǒng)區(qū)分型神經(jīng)網(wǎng)絡(luò)不同, 可獲取觀測數(shù)據(jù)和標(biāo)簽的聯(lián)合概率分布, 這方便了先驗(yàn)概率和后驗(yàn)概率的估計, 而區(qū)分型模型僅能對后驗(yàn)概率進(jìn)行估計。D B N解決傳統(tǒng) B P算法訓(xùn)練多層神經(jīng)網(wǎng)絡(luò)的難題: a ) 需要大量含標(biāo)簽訓(xùn)練樣本集; b ) 較慢的收斂速度; c ) 因不合適的參數(shù)選擇陷入局部最優(yōu)。D B N由一系列受限波爾茲曼機(jī)( R B M) 單元組成。R B M是一種典型神經(jīng)網(wǎng)絡(luò), 如圖2所示。該網(wǎng)絡(luò)可視層和隱層單元彼此互連( 層內(nèi)無連接) 。隱單元可獲取輸入可視單元的高階相關(guān)性。相比傳統(tǒng) s i g m o i d信度網(wǎng)絡(luò), R B M權(quán)值的學(xué)習(xí)相對容易。為獲取生成性權(quán)值, 預(yù)訓(xùn)練采用無監(jiān)督貪心逐層方式來實(shí)現(xiàn)。在訓(xùn)練過程中, 首先將可視向量值映射給隱單元; 然后可視單元由隱層單元重建; 這些新可視單元再次映射給隱單元,這樣就獲取新的隱單元。執(zhí)行這種反復(fù)步驟叫做吉布斯采樣。
其中: vi是滿足均值為, 方差為1的高斯分布的實(shí)數(shù)值。高斯—伯努利 R B Ms 可將實(shí)值隨機(jī)變量轉(zhuǎn)換到二進(jìn)制隨機(jī)變量, 然后再進(jìn)一步利用伯努利—伯努利 R B Ms 處理。利用對數(shù)似然概率 l o g( p ( v ; θ ) 梯度, 可推導(dǎo)出 R B M的權(quán)值更新準(zhǔn)則: 其中:??是在觀測數(shù)據(jù)訓(xùn)練集中的期望;?是模型中定義的期望。精心訓(xùn)練 R B M對成功應(yīng)用深度學(xué)習(xí)是一個關(guān)鍵。文獻(xiàn)[ 2 0 ] 提供了對 R B M實(shí)際訓(xùn)練的指導(dǎo)。通過自底向上組合多個 R B M可以構(gòu)建一個 D B N , 如圖 3所示。應(yīng)用高斯—伯努利 R B M或伯努利—伯努利 R B M。可用隱單元的輸出作為訓(xùn)練上層伯努利—伯努利 R B M的輸入。第二層伯努利和伯努利的輸出作為第三層的輸入等。這個逐層高效的學(xué)習(xí)策略理論證明可參見文獻(xiàn)[ 2 1 ] 。它指出上述逐層學(xué)習(xí)程序提高了訓(xùn)練數(shù)據(jù)基于混合模型的似然概率的變化下界。
2.區(qū)分性深度結(jié)構(gòu) 卷積神經(jīng)網(wǎng)絡(luò)( C N N s ) 是第一個真正成功訓(xùn)練多層網(wǎng)絡(luò)結(jié)構(gòu)的學(xué)習(xí)算法。與 D B N s 不同, 它屬于區(qū)分性訓(xùn)練算法。受視覺系統(tǒng)結(jié)構(gòu)的啟示, 當(dāng)具有相同參數(shù)的神經(jīng)元應(yīng)用于前一層的不同位置時, 一種變換不變性特征就可獲取了。后來 L e C u n等人沿著這種思路, 利用 B P算法設(shè)計并訓(xùn)練了 C N N s 。C N N s作為深度學(xué)習(xí)框架是基于最小化預(yù)處理數(shù)據(jù)要求而產(chǎn)生的。受早期的時間延遲神經(jīng)網(wǎng)絡(luò)影響, C N N s 靠共享時域權(quán)值降低復(fù)雜度。C N N s 是一個利用空間關(guān)系減少參數(shù)數(shù)目以提高一般前向 B P訓(xùn)練的一種拓?fù)浣Y(jié)構(gòu), 并在多個實(shí)驗(yàn)中獲取了較好性能[ 5 ,2 2 ]。在 C N N s 中被稱做局部感受區(qū)域的圖像的一小部分作為分層結(jié)構(gòu)的最底層輸入。信息通過不同的網(wǎng)絡(luò)層次進(jìn)行傳遞, 因此在每一層能夠獲取對平移、 縮放和旋轉(zhuǎn)不變的觀測數(shù)據(jù)的顯著特征。 文獻(xiàn)[ 5 ,2 2 ] 描述 C N N s 在 MN I S T數(shù)據(jù)庫中的手寫體識別應(yīng)用情況。如圖4所示, 本質(zhì)上, 輸入圖形與一系列已訓(xùn)練的濾波器系數(shù)進(jìn)行卷積操作。后經(jīng)加性偏置和壓縮、 特征歸一化等。最初階段伴隨進(jìn)一步降維的下采樣( C x ) 提供對空域變化的魯棒性。下采樣特征映射經(jīng)加權(quán)后的可調(diào)偏置, 最終利用激活函數(shù)進(jìn)行傳遞。組合多個上述映射層如圖 5所示可獲取層間關(guān)系和空域信息。這樣 C N N s 適于圖像處理和理解。國內(nèi)學(xué)者夏丁胤[ 2 3 ]將這種網(wǎng)絡(luò)應(yīng)用于網(wǎng)絡(luò)圖像標(biāo)注中。最近C N N s 已應(yīng)用于包括人臉檢測、 文件分析和語音檢測中等不同機(jī)器學(xué)習(xí)的問題中。文獻(xiàn)[ 7 ] 近期提出一新的深度學(xué)習(xí)算法。D C N如圖 6所示, 每層子模塊是含單隱層和兩個可訓(xùn)練的加權(quán)層神經(jīng)網(wǎng)絡(luò)。D C N是由一系列分層子模塊串聯(lián)組成。模塊第一個線性輸入層對應(yīng)輸入特征維數(shù), 隱層是一系列非線性參數(shù)可調(diào)單元, 第二線性輸出包含線性輸出單元及原始輸入數(shù)據(jù)。最頂模塊的輸出代表分類目標(biāo)單元。例如, 如果 D C N設(shè)定用于實(shí)現(xiàn)數(shù)字 識別, 輸出可表示成 1~1 0的 0 1編碼。如用于語音識別, 輸入對應(yīng)語音波形采樣或波形提取特征, 如功率譜或倒譜系數(shù),輸出單元代表不同音素。 3.混合型結(jié)構(gòu) 分性部分。現(xiàn)有典型的生成性單元通常最終用于區(qū)分性任務(wù)。 深度學(xué)習(xí)應(yīng)用現(xiàn)狀 深度學(xué)習(xí)在信號處理中的應(yīng)用對象不僅包含語音、 圖像和視頻, 同樣也包含文本、 語言、 和傳遞人類可獲知的語義信息。傳統(tǒng)的 ML P已經(jīng)在語音識別領(lǐng)域應(yīng)用多年, 在單獨(dú)使用的情況下它們的性能遠(yuǎn)低于利用 G MM H MM的系統(tǒng)。最近, 憑借具有很強(qiáng)區(qū)分性能力的 D B N s 和序列建模能力的 H MMs , 深度學(xué)習(xí)技術(shù)成功應(yīng)用于語音, 大詞匯量連續(xù)語音識別( L V C?S R ) [ 2 4 ]任務(wù)。文獻(xiàn)[ 2 5 ] 利用五層 D B N來替換 G MM H MM中的高斯混合模型, 并利用單音素狀態(tài)作為建模單元進(jìn)行語音識別。文獻(xiàn)[ 2 6 ] 中, N a i r 等人提出在頂層利用三階波爾茲曼機(jī)的改進(jìn)型 D B N , 并將該 D B N應(yīng)用于三維物體識別任務(wù) N O R B數(shù)據(jù)庫, 給出了接近于歷史最好識別誤差結(jié)果, 特別地, 它指出 D B N實(shí)質(zhì)上優(yōu)于 S V Ms 等淺層模型。文獻(xiàn)[ 2 7 ] 提出了 t R B M,并利用自動編碼器對舌輪廓進(jìn)行實(shí)時提取。與一般訓(xùn)練不同的是, 它首先采用利用樣本數(shù)據(jù)和人工提取的輪廓數(shù)據(jù)都同時作為訓(xùn)練樣本輸入, 經(jīng)正常的自動編碼器輸出; 訓(xùn)練完畢后, 利用提出的 t R B M對頂層進(jìn)行改進(jìn), 以使僅有感知圖像作為輸入對舌輪廓進(jìn)行預(yù)測。此外深度學(xué)習(xí)在語言文件處理的研究日益受到普遍關(guān)注。利用神經(jīng)網(wǎng)絡(luò)對語言建模已有很長的歷史,在語音識別, 機(jī)器翻譯, 文本信息檢索和自然語言處理方面具有重要應(yīng)用。最近, 深層網(wǎng)絡(luò)已經(jīng)開始吸引語言處理和信息檢索方面的研究人員的注意。文獻(xiàn)[ 2 8 ] 利用基于D B N的多任務(wù)學(xué)習(xí)技術(shù)來解決機(jī)器字譯問題, 這可以推廣到更困難的機(jī)器翻譯問題。利用 D B N和深度自動編碼器對文件檢索可以顯示基于單詞特征, 與廣泛應(yīng)用的語義分析相比具有明顯優(yōu)勢, 可令文獻(xiàn)檢索更容易, 這一思想已被初步擴(kuò)展到音頻文件檢索和語音識別類問題[ 2 9 ]。 4.總結(jié)展望 深度學(xué)習(xí)已成功應(yīng)用于多種模式分類問題。這一領(lǐng)域雖處于發(fā)展初期, 但它的發(fā)展無疑會對機(jī)器學(xué)習(xí)和人工智能系統(tǒng)產(chǎn)生影響。同時仍存在某些不適合處理的特定任務(wù), 譬如語言辨識, 生成性預(yù)訓(xùn)練提取的特征僅能描述潛在的語音變化, 不會包含足夠的不同語言間的區(qū)分性信息。虹膜識別等每類樣本僅含單個樣本的模式分類問題也是不能很好完成的任務(wù)。深度學(xué)習(xí)目前仍有大量工作需要研究。模型方面是否有其他更為有效且有理論依據(jù)的深度模型學(xué)習(xí)算法。探索新的特征提取模型是值得深入研究的內(nèi)容。此外有效的可并行訓(xùn)練算法也是值得研究的一個方向。當(dāng)前基于最小批處理的隨機(jī)梯度優(yōu)化算法很難在多計算機(jī)中進(jìn)行并行訓(xùn)練。通常辦法是利用圖形處理單元加速學(xué)習(xí)過程。然而單個機(jī)器 G P U對大規(guī)模數(shù)據(jù)識別或相似任務(wù)數(shù)據(jù)集并不適用。在深度學(xué)習(xí)應(yīng)用拓展方面, 如何合理充分利用深度學(xué)習(xí)在增強(qiáng)傳統(tǒng)學(xué)習(xí)算法的性能仍是目前各領(lǐng)域的研究重點(diǎn)。 參考文獻(xiàn)略 |
總結(jié)
- 上一篇: 21世纪初最有影响力的20篇计算机视觉期
- 下一篇: 医学图像分割研究思路