论文翻译:ImageNet Classification with Deep Convolutional nerual network
這篇文章是我大四畢設的翻譯外文文獻,第一次翻譯,而且以前也沒有接觸過深度學習方面的內容,很多詞語表述還存在問題,有待修改。
基于深度卷積神經網絡的圖片網絡分類
Alex Krizhevsky University of Toronto kriz@cs.utoronto.ca
Ilya Sutskever University of Toronto ilya@cs.utoronto.ca
Geoffrey E. Hinton University of Toronto hinton@cs.utoronto.ca
摘要
在 ImageNet LSVRC-2010 競賽中,我們訓練了一個龐大的深度 卷積神經網絡來將 1.2 億高分辨率圖片分成 1000 種類別。對于測試 數據的 top-1 和 top-5 錯誤率要比之前最高紀錄好很多,分別達到 了 37.5%和 17.0%。有 60 億個參數和 650000 個神經元的神經網絡 包含 5 個卷積層,其中的一部分為 max-pooling 層和 3 層帶有最后 的 1000 種軟性最大值全連接層。我們利用非飽和神經元和一個非 常有效的 GPU 來提高卷積操作的訓練速度。我們采用了一種最新開 發的正則化方法——DROPOUT 來減少在全連接層的出現過擬合情 況,這種方法在實際運行中十分有效。在 ILSVER-2012 比賽中,我們 將這一模型進行改進并且使得 top-5 錯誤率降為 15.3%,,而第二名 的錯誤率為 26.2%,由此我們獲得了冠軍。
1、介紹
當前的目標識別必然要用到機器學習。可以通過采集更大的數據集、學習更有力的模型和利用更好的技術阻止過擬合現象來提高效果。目前為止,標記 圖片的數據集相對較小,僅有數萬量級圖片被標記(例如NORB [16], Caltech-101/256 [8, 9], 和CIFAR-10/100 [12])。這一大小的數據集對于解決簡單的識別 任務是足夠的,尤其是當它們通過標簽保留轉化來被增強時。例如,在MNIST 數字識別任務中,當前最低的錯誤率(<0.3%)幾乎可以和人類的表現相媲美, 但目標在實際情況下有相當大的區別,識別的結果也差強人意,由此擴大訓練 集是十分必要的。實際上,少量圖像數據集的缺點已經被廣泛認同(比如Pinto et al. [21]),但只是最近才認為有必要采集數以萬計的被標記的圖片數據集。最 近更大的數據集包括LabelMe[23]和ImageNet[6]分別由成千上萬的完全分割圖像 和超過22000種類的15萬張以上的圖片構成。
我們需要一個具有強大學習能力的模型使得從數萬張圖片中得到數以千計 的目標。然而,龐大而復雜的目標識別任務也意味著即使數據集像ImageNet那 么大,這一問題也不能被明確,因此模型需要大量的預先知識來彌補之前沒有 的數據。卷積神經網絡(CNNs)便構成了一個這樣的類模型[16, 11, 13, 18, 15,22, 26]。可以通過調整寬度和深度來控制他們的能力,他們同樣可以做出關于 自然圖片強壯并幾乎正確的假設(也就是統計平穩性和本地像素依賴)。因此,和標準的具有相似大小層的前饋神經網絡相比,CNNs有著更少的連接和參 數,所以更容易去訓練,只是理論上的最佳表現會略差一些。
盡管CCNs具有非常好的訓練質量并且本地架構相對效率較高,但是它仍具有高昂的價格來支持一個大規模的高分辨率圖片集。幸運的是,當前的GPU搭配高度優化的二維卷積可以很好促進非常大的CNNs訓練,并且像最近ImageNet 這種數據集包含了足夠多的標記樣本來訓練這種模型,并且沒有嚴重的過擬合現象。
本篇論文主要貢獻如下:我們訓練了在ILSVRC-2010和ILSVRC-2012兩次 比賽中用到的ImageNet的最大的卷積神經網絡子集,并且取得了比之前所有在此數據集上訓練取得的更好的結果。我們寫了二維卷積和其他所有在訓練卷積 神經網絡的固有操作的經優化的GPU實現,這部分代碼已經公開(http://code.google.com/p/cuda-convnet/)。在第三節中,我們將詳細描述網絡所包含的提高訓練表現減少訓練時間的最新的獨特的 特征。即使帶有120萬的標記訓練樣本,但由于網絡規模龐大會導致過擬合問題,因此第四節中將闡述我們利用了多種行之有效的技術來阻止過擬合現象。 我們最終的網絡包括五層卷積層和三層全連接層,這一深度十分重要,因為我 們發現無論去掉哪一個卷積層(每一層都包含不超過模型中1%的參數),都會 降低測試表現。
最后,我們網絡的規模主要局限于GPU的存儲能力和訓練時間,我們也希 望以后在這兩個問題上有所突破。本網絡利用五至六天的時間來訓練兩個GTX 580 3GB的GPU。所有的實驗結果都證明可以通過利用更快的GPU和更大的數 據集來提高效率。
2、數據集
ImageNet是一個有著超過1.5×1071.5×107個數據、2200個類別的被標記的高分辨率圖像的數據集。這些圖像均采自網絡,并由標記員利用亞馬遜的Mechanical Turk的crow-sourcing工具進行手工標記。ImageNet 大規模視覺識別挑戰(ILSVRC)始于2010年,并作為帕斯卡視覺目標挑戰(Pascal Visual Object Challenge)的一部分每年舉辦一次。基于ImageNet的一個子集的ILSVRC從1000 個類別中的分別選出大于1000張圖片。共有大約120萬張訓練圖像,50,000張有 效圖像和150,000張測試圖像。
在ILSVRC比賽中僅有2010年的測試集帶有標簽,因此我們的模型在這次比 賽中表現最佳。我們也帶著同樣模型參加了2012年度的比賽,但在這次比賽中 測試集中并沒有標簽,我們將在第六節展示在此次比賽中的結果。在ImageNet 中常用top-1和top-5來表示結果的好壞。top-5錯誤率是測試圖像的一小部分,在 這一小部分圖像中,正確的標簽不是模型中最常見的5個標簽。
ImageNet包含可變分辨率的圖像,然而我們的系統需要一個連續的輸入維 度。因此我們將圖像下采樣來修正分辨率達到256 × 256。我們首先重新調整了 圖片使得短邊長度為256,緊接著從中心裁剪出256 × 256大小的塊。除了從訓 練集中的每個像素點去掉主要活動以外,沒有通過其他任何方式對圖片進去預處理。因此,我們是在(中心)像素的原RGB值的基礎上來訓練網絡的。
3、架構
圖二中總結了網絡的架構。它包含5個卷積層和3個全連接層。稍后在1到4 小節將介紹網絡架構的新穎和獨特之處,并將按照重要性由高到低的次序進行 展開論述。
3.1 矯正線性單元的非線性化
標準的建立一個神經輸入x和輸出f的的公式是f(x)=tanh(x)f(x)=tanh(x)或f(x)=(1+e?x)?1f(x)=(1+e?x)?1。就帶有梯度下降的訓練時間而言飽和非線性化要比不飽和非線性 化f(x)=max(0,x)f(x)=max(0,x)慢很多。我們將基于Nair和Hinton非線性神經稱作矯正線性 單元(ReLUs)。基于ReLUs的深度卷積神經網絡訓練結果要比基于tanh單元的 的網絡快很多倍。圖一中顯示了針對CIFAR-10數據集中的4層卷積層,當訓練 誤差為25%時二者的迭代次數。該曲線圖說明,我們將不會利用傳統的飽和神 經模型來在在如此大的神經網絡中做實驗。
我們不會首先考慮在CNNs中更換傳統的神經模型。例如,Jarrett et al. [11]表 示在Caltech-101數據集上,基于帶有本地平均池的對比正常化類型的非線性方法 f(x)=|tanh(x)|f(x)=|tanh(x)|表現的尤為突出。然而,這一數據及主要關心的是阻止過擬合現象, 因此他們的關注點與我們所說的利用ReLUs來提高適應訓練集能力是不同的。更 快的學習有利于提高大模型在大數據集上的訓練表現。
圖1.針對CIFAR-10數據集中的4層卷積層,當訓練誤差率為25%時,ReLUs(實線)比在同等網絡 中利用tanh神經算法(虛線)快6倍。每個網絡的學習率是獨立選擇的,目的是使得訓練速度 盡可能快,且沒有明確的使用規則。有效性與 網絡架構有關,但在同一網絡下,ReLUs比飽 和神經快幾倍。
3.2 在多GPU上訓練
一個GTX 580 GPU內存只有3GB,很大程度上限制了可訓練的最大網絡數 量。事實證明,一個120萬的訓練樣本足夠訓練一個在一個GPU上運行的大網 絡。因此我們利用兩個GPU來加速網絡。由于當前的GPU可以從另一個內存中 讀取并寫回,因此非常適合跨GPU平行化。我們所采取的平行化模式需要將一 半的核(或神經元)放到每一個GPU上,這里有額外的小技巧:GPU只在中心 層進行讀取和寫回操作。這也就意味著,例如,第三層核的輸入全部來自于第 二層的核(maps),而第四層僅將第三層中位于同一GPU的核作為輸入。a量核 的網絡相比,這一模式分別降低了top-1和top-5 1.7%和1.2%的錯誤率。兩個 GPU網絡輕松地比一個GPU網絡花費了更少的時間。(在最終的卷積層中,一個GPU網絡實際上有著和兩個GPU網絡一樣數量的核。這是因為大多數的網絡參數都在第一個全連接層中,它們將最后一個卷積層作為輸入。因此為了 使兩個網絡有相同個數的參數,我們沒有halve最終卷積層的大小(其后的全連接層也沒有改變)。因此這一比較基于一個GPU支持的網絡,因為它比有兩個 GPU但是每個大小僅為一半的網絡更大。)
3.3 局部響應正規化
ReLUs有著不需要輸入正規化來防止飽和現象的性質。如果至少有一些訓 練樣本為ReLU產生了積極的輸入,那么將會在這一神經元發生學習(動作)。但是,我們仍然發現以下本地規范化方案來幫助一般化。aix,yax,yi 表示一個神經元利用核ii在位置(x,y)(x,y)處應用ReLU線性化的動作,響應正規化動作bix,ybx,yi 的表達式為:
bix,y=aix,y/??k+α∑j=max(0,i?n/2)min(N?1,i+n/2)(aix,y)2??βbx,yi=ax,yi/(k+α∑j=max(0,i?n/2)min(N?1,i+n/2)(ax,yi)2)β這里求和部分超過了在同一空間位置與 nn臨近的核圖(kernel maps),N表 示層中核的總數。當然,核圖的順序是任意的,并在訓練開始前就已確定。這 一局部正規化使得由真正神經元中的類型激發的側面抑制創造了計算不同核輸 出神經元間的大動作的競爭。常量k,n,α,βk,n,α,β是超參數,它們的值決定了有效集(validation set)。使 k=2,n=5,α=10?4,β=0.75k=2,n=5,α=10?4,β=0.75。在可能的層應用ReLU線性化之后,我們應用了這一正規化(見3.5部分)。 這一模式降低了局部正規化和Jarrett et al. [11]的正規化相似度,但由于我們沒有去掉平均動作,所以應該更加正確的措辭“亮度正規化(brightness normalization)”。響應正規化分別降低了1.4%和1.2%top-1和top-5的錯誤率。 我們同樣證實了在CIFAR-10數據集上這一模式的效果:一個四層的CNN在沒有 正規化的情況下達到了13%的錯誤率,在有正規化的情況下達到了11%的錯誤率。(由于空間有限,這里不能詳細描述網絡細節,詳情請登錄 http://code.google.com/p/cuda-convnet/查看代碼和參數文件。)
3.4 重疊pooling
CNNs中的Pooling層總結了同一核圖中鄰組神經元的輸出。傳統上來說, 通過相鄰pooling單元匯總的部分并不重疊(例如[17,11,4])。更準確來說, pooling層可以被認為是按照s像素大小分割的pooling單元的坐標圖,每個都匯總 了一個大小為z×zz×z位于pooling單元的中心的相鄰的pooling單元。如果設s=zs=z, 那么便能得到一個在CNN網絡中常見的傳統本地pooling。如果設s<zs<z,那么將得到一個重疊pooling。s=2,z=3s=2,z=3是整個網絡中使用的參數。與未重疊模式中 設s=2,z=2s=2,z=2相比,重疊模式分別降低了top-1和top-5錯誤率0.4%和0.3%,這兩 種模式有著相同的維度輸出。由此我們可以得出,在訓練過程中,帶有重疊 Pooling的模型不太容易出現過擬合現象。
3.5 整體架構
這部分將開始介紹我們的CNN網絡的的整體架構。正如圖2中描述的一 樣,網絡包括帶weights的8層結構;前5層是卷積層,接下來的是三層全連接 層。最后的全連接層將輸出到一個產生超過1000類標簽的1000中softmax層。我們的網絡最大化了多項式邏輯回歸目標,這一方式等效于最大化訓練實例在預 分配下正確的標記的概率對數值的平均值。
第二、四、五卷積層的核只與那些位于同一GPU的前一層核圖相連接(見圖 2)。第三卷積層與第二層的所有核圖都相連接。在全連接層中的神經元與前一 層神經元相連接。3.4節所描述的Max-pooling(最大池)層同時跟隨者反饋正規 化層與第五卷積層。ReLU非線性化被用于每一層卷積層與全連接層的輸出。 第一卷積層過濾的是大小為224 × 224 × 3,同時帶有步長為4個像素大小的96 個大小為11 × 11 × 3的核的圖像(步長指的是同一核圖中相鄰神經元接受域中 心的距離)。第二卷積層將第一卷積層的輸出最為輸入,并將其過濾為256個大 小為5 × 5 × 48大小的核(反饋正規化和池化)。第三卷積層有384個大小為3 × 3 × 256的核,并與第二卷基層的輸出相連接(正規化,池化)。第四卷積層有384個大小為3 × 3 × 192的核。第五卷積層有256個大小為3 × 3 × 192的核。每 個全連接層有4096個神經元。
圖 2 我們CNN網絡的一個說明,尤其展示了兩個GPU間的責任描述。一個GPU在圖像頂 部運行layer-parts,而另一個GPU上在底部運行。GPU之間僅在中心層進行交流。網絡的輸 入是150,528維度,網絡中剩余層的神經元個數是:253,440–186,624–64,896–64,896–43,264– 4096–4096–1000。
4、減少過擬合
我們的神經網絡架構有六千萬個參數。盡管ILSVRC的1000種類別使得每個 訓練樣本從圖片到標簽都將10位約束強加于mapping,但結果證明在沒有大量的 過擬合現象的情況下,學習如此多的參數是不足的。因此,我們將描述減少過 擬合現象的兩個主要方法。
4.1 增強數據
在圖像數據上減少過擬合現象最簡單也最常見的方法是利用標簽保留轉換 方式人為擴大數據集(e.g., [25, 4, 5])。我們采用了兩種不同的增強數據的方 法,兩種方式都允許將原始圖片進行很少的計算后生成變換圖像。因此變換圖 像不需要存儲在硬盤上。在我們的實現過程中,在CPU上用Python代碼生成變 換圖像而GPU上訓練上一批圖像。所以實際上,這些數據增強模式幾乎是沒有 計算量的。
第一種數據增強的方式由生成圖像的轉換和水平映射組成。我們通過從 256 × 256個圖像中隨機抽取224 × 224個補丁(和對應的水平映射),并在這 些補丁上訓練網絡(這就是為什么在圖二中輸入圖像是224 × 224 × 3維度)。盡管最終的訓練樣本是高度相互依存的,但這種方式將訓練集擴大了2048倍。如果不采用這種模式,網絡將會產生大量的過擬合現象, 并將使我們不得不使用更小的網絡。在測試時,網絡通過抽取5個224 × 224大 小的補丁(四個邊角補丁和一個中心補丁)和對應的水平映射(共計10個補 丁)做出了預測,并用在10個補丁上的網絡的softmax層來計算預測值的平均值。
第二種數據增強的方式通過改變訓練圖像的RGB通道值實現。具體來說就 是將PCA在RGB像素值上運行,其中像素值變化范圍在ImageNet訓練集內。對 于每一個訓練圖像,將對相應的特征值按比例成倍的添加主成分,并通過均值 為零,標準差為0.1的高斯函數繪制隨機變量。因此對于每一個RGB圖像值
Ix,y=[IRx,y,IGx,y,IBx,y]TIx,y=[Ix,yR,Ix,yG,Ix,yB]T,添加如下內容:
這里, pipi和 λiλi分別表示第 ii個特征向量和3 × 3的協方差矩陣的RGB像素特征值,αiαi是前面所說的隨機變量。對于一個特定的訓練圖像的全部像素,每個 αiαi僅被繪制一次,在圖像被再次訓練之前,該點將被再次繪制。這一模式能夠大致捕獲自然圖像的重要性能,也就是說,目標識別對于強度改變和光照顏色是 不變的。這一模式減少了1%的top-1錯誤率。
4.2 Dropout
將眾多不同的模型預測結合起來是減少錯誤率[1,3]最成功的方法,但對于 大的神經網絡來說,花費許多天來訓練的代價太昂貴了。但有一個非常有效的 模型結合版本僅需要花費一半的訓練時間。最新介紹的技術——Dropout,將每 個可能值為0.5的隱藏神經元的輸出設為0。這種將神經元“dropped out”的方法 不會導致前向傳播和反向傳播。因此,每當一個輸入被確定后,神經網絡會采 樣一個不同的結構 ,但是所有的這些結構都會共享權重。由于神經元不能依賴 于其它特定的神經元,因此這一技術降低了神經元間相互適應的復雜度。因 此,神經元必須去學習更強健的、與其他神經元的不同的自由子集相聯系時更 有用的特征。在測試時,我們將所有的神經元輸出改為原來的0.5倍,這是一種 合理的通過指數級dropout網絡產生的預測分布的幾何均值近似方法。
圖1中,在前兩個全連接層使用dropout。如果不使用dropout,網絡將產生 大量的過擬合。Dropout粗略的將迭代次數降至收斂范圍內。
5、學習的細節
我們按照一個批次128個樣例大小采用隨機梯度下降法訓練模型,動量值為 0.9,權重衰減值為0.0005。我們發現權重衰減值對于模型的學習非常重要。也 就是說,權值衰減值不僅僅是一個正則化矩陣,它也降低了模型的訓練錯誤。 權值ww的更新規則是vi+1:=0.9vi?0.0005???wi?????L?ω|wi?Divi+1:=0.9vi?0.0005???wi?????L?ω|wi?Di
wi:=wi+wi+1wi:=wi+wi+1這里, ii是迭代下標,vv是動量變量, ??是學習率, ??L?ω|wi?Di??L?ω|wi?Di是第 ii個塊DiDi 在目標 ww<script type="math/tex" id="MathJax-Element-38">w</script>處的導數的平均值。在每一層,將權值初始化為均值為0,標準差為0.01的高斯分布。在第二、四、五卷積層和隱藏的全連接層將神經元偏差初始化為 常量1。這一初始化方式通過提供ReLUs的積極輸入加速了早期的學習。在其他 層,將神經元偏差初始化為常量0。
在訓練過程中,我們手動調節所有層的學習率并保持一致。我們所采用的 啟發式目的是為了當有效錯誤率不再隨著當前學習率的變化而增長時將學習率 除10。學習率初始值為0.01,并在結束前遞減三次。我們的網絡訓練90次循環 120萬張圖片需要用兩個NVIDIA GTX型3GB大小的GPU,花費5至6天。
6、結果
我們在ILSVRC-2010集的結果在表1中列出。我們的網絡top-1和top-5的錯 誤率分別達到了37.5%和17.0%。(4.1節中所闡述的沒有計算10個補丁塊的平均預測值的top-1和top-5的錯誤率分別為39.0%和18.3%。此前,在ILSVRC-2010競賽中最好的表現是47.1%和和 28.2%,這一值與訓練在不同特征上的6個稀疏編碼模型平均預測值相接近[2], 自從那以后,最好的結果為45.7%和25.7%,這一值與訓練在Fisher Vectors(FVs) 集的兩個分類器,根據兩類密集采樣特征計算的預測平均值相接近[24]。)
表 1. ILSVRC-2010 的測試結果對比。斜體標出的是其他人做出的最好結果。
圖 3.由第一卷積層大小為224 × 224 × 3的輸入圖像學習的 96 個大小為11 × 11 × 3的卷積 核。頂層的 48 個核在 GPU1 上學習,底層的在 GPU2 上學習。詳見 6.1 節。
表 2.ILSVRC-2012 中有效集和測試集錯誤率的對比。斜體標出的是其他人做出的最好結果。 帶有星號*標記的模型是為了將全部的 ImageNet 2011 Fall 版本進行分類的“預訓練”。詳見 第 6 節。
我們也同樣參加了 ILSVRC-2012 比賽,并將結果統計在了表 2 中。由于 ILSVRC-2012 測試集標記并不公開,因此我們不能夠將所有訓練的測試結果的 錯誤率公布。其它段中,由于以我們的經驗來看,有效錯誤率和測試錯誤相差不 超過 0.1%(見表 2),因此我們將其視為可交換的值。本篇論文中所描述的 CNN 的 top-5 錯誤率達到 18.2%。5 個近似的 CNN 的平均預測錯誤率值為 16.4%。在 額外的 6 個卷積層和最后一個 Pooling 層訓練 CNN 來分類 ImageNet 2011 Fall 的 全部版本(15M 圖片,22K 類),然后在 ILSVRC-2012 進行“微調”可使錯誤 率達到 16.6%。將在 ImageNet 2011 Fall 的全部版本上預訓練的兩個 CNN 和前面 所提到的五個 CNN 計算均值后,錯誤率為 15.3%。根據比賽記錄,第二佳的錯 誤率為 26.2%,這一值與訓練在 FVs 上的若干分類器,根據不同類型的密集采樣 特征計算的預測平均值相接近。
最后,我們同樣公布了在 Fall 2009 版本中 ImageNet 10184 個類別 890 萬張 圖片的錯誤率結果。在數據集中,我們遵循了文獻中要求的一半的圖片用來訓練 另一半用來測試的約定。由于沒有已建立好的測試集,我們的分割需要與以往的 的分割不同,但是這并沒有明顯的影響結果。在這一數據集中 top-1 和 top-5 的 錯誤率分別為 67.4%和 40.9%,采用的是描述的全部的網絡以及額外的六個卷積 層和最后一個 pooling 層。在這一數據集中最好的結果是 78.1%和 60.9%。
圖 4.(左側)8 個 ILSVRC-2010 測試圖像和 5 個模型認為最可能的標簽。正確的標簽 寫在了每張圖像的下方,可能正確的標簽也用紅色條顯示了出來(如果它出現在前五 個)。(右側)第一列是 5 個 ELSVEC-2010 測試圖像。其他列則顯示了 6 個訓練圖 像,它們在隱藏層的特征向量與測試圖像的特征向量的歐幾里得距離最小。
6.1 定性評估
圖3描述了通過網絡的兩個數據連接層學習的卷積核。網絡已經學習了多種 頻率選擇核和定向選擇核,以及多種色彩塊(blobs)。注意在3.5節中特別描述 的兩個GPU,是嚴格連接的結果。第一個GPU中的核多半是顏色不可知的,而 另一塊GPU中的核多半是顏色可知的。這種專門化在每次運行中都會出現,同 時它也是獨立于特定的隨機權值初始化的(對重新編號的GPU取模)。圖4左半 部分定性的評估了網絡在8個測試圖像中通過計算top-5預測值的學習內容。注 意,即使是不在中心的目標,比如左上角的小蟲子,網絡也能夠將其識別出 來。大部分的top-5標簽是有原因出現的。例如,對于豹子來說,只有其他類型的貓才會被模糊的識別為豹子。在某些情況下(格柵,櫻桃),圖像的預重點 的確是模棱兩可的。
其他探尋網絡的視覺知識是在圖像的最后4096維隱藏層考慮特征激活引誘 方式。如果兩個圖片的特征激活向量是一個小的歐幾里得分離,那么可以說二 者神經網絡的高層部分是相似的。圖4展示了5個來自測試集的圖片和6張來自訓 練集的圖片,根據這一衡量標準,它們之間是最相似的。注意,在像素級別, 補償訓練圖片一般并不與第一列的查詢圖片L2相近。例如,檢索到的狗和大象 的姿態多種多樣。我們展示了在補充材料中更過的測試圖像結果。
通過計算兩個4096維真值向量的歐幾里得距離來計算相似度是無效的,但 是可以通過訓練一個能夠將這些向量壓縮為短二值編碼的自動編碼器來使得這 一方法行之有效。這要產生一種比自動編碼未經處理的像素更好的圖像檢索方 法,這種方法并不利用圖像的標簽,因此不管邊緣圖案是否語義相似,它們都 提供了這一種檢索圖像的趨勢。
7、討論
我們的結果展示了一個大而深的卷積神經網絡是有能力在高挑戰性的數據 集上通過純粹的有監督學習打破記錄。值得注意的是,如果移除一層卷積層我 們的網絡性能會降低。例如,移除任何中間的一層都會導致網絡的top-1性能損 失2%。因此,對于達到這樣的結果,網絡的深度尤為重要。
為了簡化實驗,我們沒有使用任何非監督式預訓練,即使我們也希望會用 效果,尤其如果我們獲得足夠的計算能力來大幅度擴大網絡規模,在沒有獲得 相應數量的標簽數據。目前為止,我們擴大了網絡并增加了訓練時間,結果由 此得到提升,但是為了達到可以人類的視覺系統相媲美的結果我們仍有大量的 工作要做。最后,我們非常愿意將大而深的卷積網絡應用于視頻序列上,時間 結構提供了一個丟失或靜態圖像并不明顯的非常有用的信息。
參考文獻
[1] R.M. Bell and Y. Koren. Lessons from the netflix prize challenge. ACM SIGKDD Explorations Newsletter,9(2):75–79, 2007.
[2] A. Berg, J. Deng, and L. Fei-Fei. Large scale visual recognition challenge 2010. www.imagenet.org/challenges. 2010.
[3] L. Breiman. Random forests. Machine learning, 45(1):5–32, 2001.
[4] D. Cire?san, U. Meier, and J. Schmidhuber. Multi-column deep neural networks for image classification.Arxiv preprint arXiv:1202.2745, 2012.
[5] D.C. Cire?san, U. Meier, J. Masci, L.M. Gambardella, and J. Schmidhuber. High- performance neural networks for visual object classification. Arxiv preprint arXiv:1102.0183, 2011.
[6] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei. ImageNet: A Large- Scale Hierarchical Image Database. In CVPR09, 2009.
[7] J. Deng, A. Berg, S. Satheesh, H. Su, A. Khosla, and L. Fei-Fei. ILSVRC-2012, 2012. URL http://www.image-net.org/challenges/LSVRC/2012/.
[8] L. Fei-Fei, R. Fergus, and P. Perona. Learning generative visual models from few training examples: An incremental bayesian approach tested on 101 object categories. Computer Vision and Image Understanding,106(1):59–70, 2007.
[9] G. Griffin, A. Holub, and P. Perona. Caltech-256 object category dataset. Technical Report 7694, California Institute of Technology, 2007. URL http://authors.library.caltech.edu/7694.
[10] G.E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever, and R.R. Salakhutdinov.
Improving neural networks
by preventing co-adaptation of feature detectors. arXiv preprint arXiv:1207.0580, 2012.
[11] K. Jarrett, K. Kavukcuoglu, M. A. Ranzato, and Y. LeCun. What is the best multi-stage architecture for object recognition? In International Conference on Computer Vision, pages 2146–2153. IEEE, 2009.
[12] A. Krizhevsky. Learning multiple layers of features from tiny images. Master’s thesis, Department of Computer Science, University of Toronto, 2009.
[13] A. Krizhevsky. Convolutional deep belief networks on cifar-10. Unpublished manuscript, 2010.
[14] A. Krizhevsky and G.E. Hinton. Using very deep autoencoders for content-based image retrieval. In ESANN, 2011.
[15] Y. Le Cun, B. Boser, J.S. Denker, D. Henderson, R.E. Howard, W. Hubbard,
L.D. Jackel, et al. Handwritten digit recognition with a back-propagation network. In Advances in neural information processing systems, 1990.
[16] Y. LeCun, F.J. Huang, and L. Bottou. Learning methods for generic object recognition with invariance to pose and lighting. In Computer Vision and Pattern Recognition, 2004. CVPR 2004. Proceedings of the 2004 IEEE Computer Society Conference on, volume 2, pages II–97. IEEE, 2004.
[17] Y. LeCun, K. Kavukcuoglu, and C. Farabet. Convolutional networks and applications in vision. In Circuits and Systems (ISCAS), Proceedings of 2010 IEEE International Symposium on, pages 253–256.IEEE, 2010.
[18] H. Lee, R. Grosse, R. Ranganath, and A.Y. Ng. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations. In Proceedings of the 26th Annual International Conference on Machine Learning, pages 609–616. ACM, 2009.
[19] T. Mensink, J. Verbeek, F. Perronnin, and G. Csurka. Metric Learning for Large Scale Image Classification:Generalizing to New Classes at Near-Zero Cost. In ECCV - European Conference on Computer Vision, Florence, Italy, October 2012.
[20] V. Nair and G. E. Hinton. Rectified linear units improve restricted boltzmann machines. In Proc. 27th International Conference on Machine Learning, 2010.
[21] N. Pinto, D.D. Cox, and J.J. DiCarlo. Why is real-world visual object recognition hard? PLoS computational biology, 4(1):e27, 2008.
[22] N. Pinto, D. Doukhan, J.J. DiCarlo, and D.D. Cox. A high-throughput screening approach to discovering good forms of biologically inspired visual representation. PLoS computational biology, 5(11):e1000579,2009.
[23] B.C. Russell, A. Torralba, K.P. Murphy, and W.T. Freeman. Labelme: a database and web-based tool for image annotation. International journal of computer vision, 77(1):157–173, 2008.
[24] J. Sánchez and F. Perronnin. High-dimensional signature compression for large- scale image classification.In Computer Vision and Pattern Recognition (CVPR), 2011 IEEE Conference on, pages 1665–1672. IEEE,2011.
[25] P.Y. Simard, D. Steinkraus, and J.C. Platt. Best practices for convolutional neural networks applied to visual document analysis. In Proceedings of the Seventh International Conference on Document Analysis and Recognition, volume 2, pages 958–962, 2003.
[26] S.C. Turaga, J.F. Murray, V. Jain, F. Roth, M. Helmstaedter, K. Briggman,W. Denk, and H.S. Seung. Convolutionalnetworks can learn to generate affinity graphs for image segmentation. Neural Computation,22(2):511–538, 2010.
總結
以上是生活随笔為你收集整理的论文翻译:ImageNet Classification with Deep Convolutional nerual network的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python闭包应用实例_Python中
- 下一篇: caffe教程翻译:Alex’s CIF