CapsuleNet(了解)
學習目標
- 目標
- 了解CapsuleNet
- 應用
- 無
5.3.1 CapsuleNet為什么會出現(xiàn)
2017年,CapsuleNet的出現(xiàn)是Hinton大佬對于卷積神經(jīng)網(wǎng)絡等的思考,想去構(gòu)建一種新的網(wǎng)絡結(jié)構(gòu), 如何克服CNN存在的問題的,那CN網(wǎng)絡又存在什么問題:
-
CNN的目標不正確
- 1、CNN對于旋轉(zhuǎn)類型圖片不確定
CNN會認為下圖的R是兩個不同的字母,而這是由網(wǎng)絡結(jié)構(gòu)所帶來的,這也造成了CNN所需的訓練集要很大。
?
- 2、CNN對于圖片整體結(jié)構(gòu)關系不確定
- 對于下面這張人臉圖,CNN會認為這是張正確的圖,因為只要存在一些關鍵結(jié)構(gòu)即可,沒有結(jié)構(gòu)之間的聯(lián)系
- 解決了圖像識別中的“畢加索問題”
?
-
Hinton認為人的視覺系統(tǒng)會有不一樣的做法
- 人的視覺系統(tǒng)會建立坐標框架,坐標框架是參與到識別過程中,識別過程受到了空間概念的支配
?
5.3.2 什么是CapsuleNet
膠囊神經(jīng)網(wǎng)絡(CapsuleNet)是一種機器學習系統(tǒng),該方法試圖更接近地模仿生物神經(jīng)組織,該想法是將稱為膠囊的結(jié)構(gòu)添加到CNN當中。
論文地址:https://arxiv.org/pdf/1710.09829.pdf
5.3.2.1 改進特點
- 添加一個Capsule層
Capsule 是一組神經(jīng)元,其輸入輸出向量表示特定實體類型的實例化參數(shù)(即特定物體、概念實體等出現(xiàn)的概率與某些屬性)。
假設有手寫數(shù)字10類別的分類任務,比如說10 x 16,輸出表示了圖像中存在的特定實體16個的各種性質(zhì)。例如姿勢(位置,大小,方向)、變形、速度、反射率,色彩、紋理等等。
- 輸入輸出向量的長度表示了某個實體出現(xiàn)的概率,所以它的值必須在 0 到 1 之間。
5.3.2.2 結(jié)構(gòu)
?
- 第一個卷積層:使用了256個9×9 卷積核,步幅為 1,ReLU 激活函數(shù)。輸出的張量才能是20×20×256
- 第二個卷積層:作為Capsule層的輸入而構(gòu)建相應的張量結(jié)構(gòu)。
- 32個,9×9 的卷積核,步幅為 2下做卷積, 得到6×6×32的張量,等價于 6×6×1×32
- 8 次不同權(quán)重的 Conv2d 操作,得到6 x 6 x 8 x 32
- 理解:6×6×32=1152Capsule單元,每個向量長度為8
- 第三層:有10個標準的Capsule單元,每個Capsule的輸出向量有16 個元素,10 X 16
- 參數(shù):
- W_{i,j}W?i,j??有1152×10個,每個是8×16的向量
5.3.2.3 效果
- Capsules on MNIST
- 達到約0.25%的錯誤率,相比之前CNN0.39%的錯誤率提高
5.3.4 總結(jié)
- 了解CapsuleNet
總結(jié)
以上是生活随笔為你收集整理的CapsuleNet(了解)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

- 上一篇: 自动编码器
- 下一篇: 前端的单页面模式和多页面模式