深度学习~卷积神经网络(CNN)概述
目錄???????
1. 卷積神經(jīng)網(wǎng)絡(luò)的形成和演變
1.1 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
1.2 卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用和影響
1.3 卷積神經(jīng)網(wǎng)絡(luò)的缺陷和視圖
1.3.1 缺陷:可能錯(cuò)分
1.3.2 解決方法:視圖?
1.4 卷積神經(jīng)網(wǎng)絡(luò)的平臺(tái)和工具
reference:
1. 卷積神經(jīng)網(wǎng)絡(luò)的形成和演變
背景:卷積神經(jīng)網(wǎng)絡(luò)最初是受到視覺系統(tǒng)的神經(jīng)機(jī)制啟發(fā)、針對(duì)二維形狀的識(shí)別設(shè)計(jì)的一種生物物理模型,在平移情況下具有高度不變性,在縮放和傾斜情況下也具有一定的不變性。這種生物物理模型集成了“感受野”的思想,可以看作一種特殊的多層感知器或前饋神經(jīng)網(wǎng)絡(luò),具有局部連接、權(quán)值共享(卷積)的特點(diǎn)。其中,大量神經(jīng)元按照一定方式組織起來對(duì)視野中的交疊區(qū)域產(chǎn)生反應(yīng)。
1962年,Hubel和Wiesel通過對(duì)貓的視覺皮層細(xì)胞的研究,提出了“感受野”的概念。
1979年,日本學(xué)者Fukushima在感受野概念的基礎(chǔ)上,提出了神經(jīng)認(rèn)知機(jī)模型,該模型被認(rèn)為是實(shí)現(xiàn)的第一個(gè)卷積神經(jīng)網(wǎng)絡(luò)。
1998年,LeCun等人將卷積層和下采樣層相結(jié)合,設(shè)計(jì)卷積神經(jīng)網(wǎng)絡(luò)的主要結(jié)構(gòu),形成了現(xiàn)代卷積神經(jīng)網(wǎng)絡(luò)的雛形(LeNet)。
2012年,卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展取得了歷史性突破,Krizhevsky等人采用修正線性單元(Rectified Linear Unit, ReLU)作為激活函數(shù)提出了著名的AlexNet,并在大規(guī)模圖像評(píng)測中取得了優(yōu)異成績,成為深度學(xué)習(xí)發(fā)展史上的重要拐點(diǎn)。
1.1 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
理論上,卷積神經(jīng)網(wǎng)絡(luò)是一種特殊的多層感知器或前饋神經(jīng)網(wǎng)絡(luò)。
標(biāo)準(zhǔn)的卷積神經(jīng)網(wǎng)絡(luò)一般由輸入層、交替的卷積層和池化層、全連接層和輸出層組成。其中,卷積層也稱為檢測層,池化層也稱為下采樣層,它們也被看作特殊的隱含層。
卷積層的權(quán)值也稱為卷積核,雖然卷積核一般是需要訓(xùn)練的,但有時(shí)可以是固定的,比如直接采用Gabor濾波器。
- ?從結(jié)構(gòu)的角度來看,卷積神經(jīng)網(wǎng)絡(luò)起初只能處理黑白或灰度圖像,變種模型通過把紅、綠、藍(lán)3個(gè)顏色通道作為一個(gè)整體輸入,已經(jīng)直接處理彩色圖像,有些還可以直接處理多幀圖像甚至連續(xù)圖像。同時(shí),變種模型可以使用多個(gè)相鄰的卷積層或多個(gè)相鄰的池化層,也可以使用重疊池化和最大池化,還可以使用修正線性單元、滲漏修正線性單元(Leaky ReLu, LReLU)、參數(shù)修正線性單元(Parametric ReLU, PReLU)或指數(shù)線性單元(Exponential Linear Unit, ELU)取代sigmoid單元作為激活函數(shù),也可以在輸出層采用軟最大函數(shù)softmax替代sigmoid函數(shù)產(chǎn)生偽概率。
- 從卷積核的角度看,卷積神經(jīng)網(wǎng)絡(luò)可以通過采用非常小的卷積核,比如1X1和3X3大小,被加深成一個(gè)更深的網(wǎng)絡(luò),比如16層或19層的VGGNet。卷積神經(jīng)網(wǎng)絡(luò)通過使用小卷積核在保持總體計(jì)算代價(jià)的條件下增加深度和寬度。并與攝入模塊(inception module)進(jìn)行集成,可以用來建立谷歌網(wǎng)絡(luò)(GoogLeNet)。此外,卷積神經(jīng)網(wǎng)絡(luò)通過使用微型多層感知器代替卷積核,還可以被擴(kuò)展成更復(fù)雜的網(wǎng)絡(luò),比如,網(wǎng)中網(wǎng)(Network In Network, NIN)
- 從區(qū)域的角度看,區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Region-based CNN, R-CNN)可以用來抽取區(qū)域卷積特征,并通過區(qū)域提議進(jìn)行更加魯棒的定位和分類。空間金字塔池化模型(Spatial Pyramid Pooling Net, SPPNet)可以克服其輸入大小固定的缺點(diǎn),辦法是在最后一個(gè)卷積層和第一個(gè)全連接層之間插入一個(gè)空間金字塔池化層。為了獲得實(shí)時(shí)性能極快的對(duì)象檢測速度,可以把輸入圖像劃分成許多網(wǎng)格,并通過單個(gè)網(wǎng)絡(luò)構(gòu)造的整體檢測管道,直接從整幅圖像預(yù)測對(duì)象的邊框和類概率建立YOLO模型,只需看一遍圖像就能知道對(duì)象的位置和類別。
- 從優(yōu)化角度看,許多技術(shù)可以用來訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),比如dropout丟棄輸出,dropconnect丟棄連接,batch normalization塊歸一化。丟棄輸出是一種減小過擬合的正則化技術(shù),而丟棄連接是dropout的推廣。塊歸一化(或批量歸一化)則是按迷你塊大小對(duì)某些層的輸入進(jìn)行歸一化處理的方法。此外,殘差網(wǎng)絡(luò)(Redidual Network,ResNet)采用跨越2~3層的連接策略也是一種重要的優(yōu)化技術(shù),可以用來克服極深網(wǎng)絡(luò)的訓(xùn)練困難。
- 從演變的角度看,現(xiàn)在卷積網(wǎng)絡(luò)以LeNet為雛形,在經(jīng)過AlexNet的歷史突破之后,演化生成了許多不同的網(wǎng)絡(luò)模型,主要包括:加深模型、跨連模型、應(yīng)變模型、區(qū)域模型、分割模型、特殊模型和強(qiáng)化模型等。加深模型的代表是VGGNet-16、VGGNet-19和GoogLeNet;跨連模型的代表是HighwayNet、ResNet和DenseNet;應(yīng)變模型的代表是SPPNet;區(qū)域模型的代表是R-CNN、Fast R-CNN、Faster R-CNN、YOLO和SSD;分割模型的代表是FCN、PSPNet和Mask R-CNN;特殊模型的代表是SiameseNet、SqueezeNet、DCGAN、NIN;強(qiáng)化模型的代表是DQN和AlphaGo。
1.2 卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用和影響
- 在手寫字符識(shí)別方面,MNIST數(shù)據(jù)集
- 在圖像分類方面,ILSVRC-2012。AlexNet使用了dropout優(yōu)化技術(shù)和ReLU激活函數(shù)。
- 在人臉驗(yàn)證方面,
- 在交通標(biāo)志識(shí)別方面,GTSRB
- 在視頻游戲方面,深度Q-網(wǎng)絡(luò)智能體的機(jī)器玩家。
- 在視頻分類方面,使用獨(dú)立自空間分析(Independent Subspace Analysis, ISA)
- 在語音識(shí)別方面,TIMIT音素識(shí)別任務(wù)
- 在機(jī)器翻譯方面,WMT
- 在圍棋程序方面,AlphaGo利用深層網(wǎng)絡(luò)和蒙特卡羅樹搜索(Monte Carlo tree search)
1.3 卷積神經(jīng)網(wǎng)絡(luò)的缺陷和視圖
1.3.1 缺陷:可能錯(cuò)分
-
對(duì)抗樣本。對(duì)抗樣本是一種含有人類不可感知的微小擾動(dòng)的非隨機(jī)圖像。
-
欺騙圖像。有些人類根本不可能識(shí)別的噪聲圖像,卷積神經(jīng)網(wǎng)絡(luò)以高于99%的置信度識(shí)別它為一個(gè)熟知的對(duì)象(比如數(shù)字)
1.3.2 解決方法:視圖?
采用可視化技術(shù)來分析其數(shù)據(jù)表達(dá)并解釋其工作機(jī)理。常用的可視化技術(shù),比如逆變換(inversion)、激活最大化(activatioin maximization)和卡通化(caricaturazation),是以自然原像概念為基礎(chǔ)的。
自然原像就是那些看起來具有顯著自然特征的圖像,就是平常普通照片。通常,一幅圖像經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)提取特征后,隨著層次的深入,可視化結(jié)果會(huì)變得越來越模糊和抽象。
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,簡化為ConvNet或CNN)是一種前饋神經(jīng)網(wǎng)絡(luò),其中信息從輸入到卷積運(yùn)算符單向流動(dòng)到輸出[93]。
1.4 卷積神經(jīng)網(wǎng)絡(luò)的平臺(tái)和工具
為了在解決各種實(shí)際問題中有效地利用深度學(xué)習(xí)模型,有很多開發(fā)平臺(tái)和工具。
Theano, TensorFlow, Caffe, Caffe2, CNTK, MXNet, Torch, Deeplearning4J, keras
reference:
H. Cecotti and A. Graser, “Convolutional neural networks for p300 detection with application to brain-computer interfaces,”IEEE transactions on pattern analysis and machine intelligence, vol. 33, no. 3, pp. 433–445, 2010.
深度學(xué)習(xí):卷積神經(jīng)網(wǎng)絡(luò)從入門到精通。李玉鑑,張婷
如圖7所示,
這種卷積算子在CNN中至少包括三個(gè)堆疊層,包括卷積層convolutional layer,池化層pooling layer和完全連接層fully connected layer。卷積層對(duì)張量進(jìn)行卷積,池化層簡化了基礎(chǔ)計(jì)算以減少數(shù)據(jù)量。完全連接的層將上一層中的每個(gè)神經(jīng)元連接到一個(gè)新層,類似于傳統(tǒng)的多層感知器神經(jīng)網(wǎng)絡(luò)。
具有堆疊層的CNN的本質(zhì)是將輸入數(shù)據(jù)減少到易于識(shí)別的地層,且損失最小,并且可以通過應(yīng)用CNN捕獲EEG模式的獨(dú)特空間依賴性。例如,CNN已被用于從癲癇皮層內(nèi)數(shù)據(jù)中自動(dòng)提取信號(hào)特征[22],并執(zhí)行自動(dòng)診斷以取代由專家進(jìn)行的耗時(shí)的視力檢查程序[23]。
總結(jié)
以上是生活随笔為你收集整理的深度学习~卷积神经网络(CNN)概述的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 机器学习高阶认识(一): 机器学习假设与
- 下一篇: 深度学习~生成式对抗神经网络GAN