【模型解读】从2D卷积到3D卷积,都有什么不一样
接著模型解讀系列,在中國(guó)科幻作家劉慈欣的科幻小說(shuō)《三體Ⅲ·死神永生》中,首次提出了降維打擊這個(gè)概念,這是本質(zhì)上區(qū)別于同一維度的攻擊,破壞性也更大。
而現(xiàn)在我們要說(shuō)的是從二維卷積升級(jí)到三維卷積,它相比2D卷積是否會(huì)有不一樣呢?
作者 | 言有三
編輯 | 言有三
01
3D卷積
首先看一下二維卷積,一個(gè)3*3的卷積核,在單通道圖像上進(jìn)行卷積,得到輸出。
然后我們?cè)倏匆幌?維卷積,一個(gè)3*3*3的卷積核在立方體上進(jìn)行卷積,得到輸出。
就是這樣,沒(méi)什么其他花樣了。
可能有人會(huì)問(wèn),這跟多通道卷積有什么區(qū)別呢?
有。
多通道卷積不同的通道上的卷積核的參數(shù)是不同的,而3D卷積則由于卷積核本身是3D的,所以這個(gè)由于“深度”造成的看似不同通道上用的就是同一個(gè)卷積,權(quán)重共享嘛。
總之,多了一個(gè)深度通道,這個(gè)深度可能是視頻上的連續(xù)幀,也可能是立體圖像中的不同切片。
02
3D卷積的應(yīng)用
上面也說(shuō)了,3D卷積就是多了一個(gè)深度通道,而這個(gè)深度通道可能是視頻上的連續(xù)幀,也可能是立體圖像中的不同切片,所以從應(yīng)用上來(lái)說(shuō),主要就是兩大主要方向。
2.1 視頻分類
相比于2D圖像,什么數(shù)據(jù)多了一個(gè)維度呢?當(dāng)然就是視頻了,視頻的幀數(shù),就是完美的另一個(gè)深度維度,將3D卷積用于視頻的分類,再自然不過(guò),關(guān)鍵就是看誰(shuí)先來(lái)干。
據(jù)我所知,文【1】是最早的,看看他們使用的網(wǎng)絡(luò)結(jié)構(gòu)。
網(wǎng)絡(luò)很淺,只有3個(gè)卷積層和1個(gè)全連接層,2個(gè)池化層,這樣的網(wǎng)絡(luò)規(guī)模和LeNet5可以稱兄道弟了。不過(guò)3D多了一個(gè)維度,計(jì)算量自然是多了很多。
這里有兩個(gè)3D卷積層,卷積核大小分別是7x7x3,7x6x3,前兩維是空間的卷積,后一維是時(shí)間的卷積,看得出來(lái),不需要保持一致,而且通常空間的卷積核大小和時(shí)間就不會(huì)一致,畢竟處理的“分辨率”不同。
這個(gè)網(wǎng)絡(luò)結(jié)構(gòu)在視頻分類數(shù)據(jù)集UCF-101上的top-1精度為63.3%,別看這個(gè)指標(biāo)不高,其他的比如LSTM,雙流網(wǎng)絡(luò)等也差不太多,而普通的2D卷積或者傳統(tǒng)方法則要低于這個(gè)指標(biāo)。
更細(xì)致的三維卷積在視頻分類中應(yīng)用的網(wǎng)絡(luò)結(jié)構(gòu)的探索在文【2】中,感興趣讀者可以自取。
2.2 圖像分割
既然可以用于分類,自然也可以用于分割。不過(guò)對(duì)視頻使用3D卷積似乎優(yōu)勢(shì)并不大,而在醫(yī)學(xué)領(lǐng)域的應(yīng)用前景更大一些。
醫(yī)學(xué)數(shù)據(jù)通常都是3D的,比如CT掃描的數(shù)據(jù),雖然我們看的片子是2D的,但其實(shí)那只是一個(gè)切片,真正的掃描數(shù)據(jù)是3D的。
而如果要分割出一些病變組織,比如腫瘤,也必須是3D的。
具體的網(wǎng)絡(luò)結(jié)構(gòu)就是將U-Net改為3D的形式。
就講這么多,未完待續(xù)。
【1】Ji S, Xu W, Yang M, et al. 3D convolutional neural networks for human action recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(1): 221-231.
【2】Tran D, Bourdev L, Fergus R, et al. Learning spatiotemporal features with 3d convolutional networks[C]//Proceedings of the IEEE international conference on computer vision. 2015: 4489-4497.
【3】Casamitjana A, Puch S, Aduriz A, et al. 3D Convolutional Neural Networks for Brain Tumor Segmentation: a comparison of multi-resolution architectures[C]//International Workshop on Brainlesion: Glioma, Multiple Sclerosis, Stroke and Traumatic Brain Injuries. Springer, Cham, 2016: 150-161.
總結(jié)
我們面臨的很多的數(shù)據(jù)都是高維的,比如街景地圖,比如視頻,比如醫(yī)學(xué)圖像,比如點(diǎn)云,將二維拓展至更高維的卷積也是很自然的想法,總之多嘗試吧。
轉(zhuǎn)載文章請(qǐng)后臺(tái)聯(lián)系
侵權(quán)必究
更多請(qǐng)關(guān)注知乎專欄《有三AI學(xué)院》
往期精選
【模型解讀】“不正經(jīng)”的卷積神經(jīng)網(wǎng)絡(luò)
【模型解讀】resnet中的殘差連接,你確定真的看懂了?
【模型解讀】pooling去哪兒了?
【模型解讀】說(shuō)說(shuō)移動(dòng)端基準(zhǔn)模型MobileNets
【模型解讀】GoogLeNet中的inception結(jié)構(gòu),你看懂了嗎
【模型解讀】network in network中的1*1卷積,你懂了嗎
【模型解讀】從“局部連接”回到“全連接”的神經(jīng)網(wǎng)絡(luò)
【模型解讀】深度學(xué)習(xí)網(wǎng)絡(luò)只能有一個(gè)輸入嗎
想要變身”AI專家“,就戳戳手指關(guān)注我們吧
別忘了點(diǎn)“好看”支持作者噢? ????
總結(jié)
以上是生活随笔為你收集整理的【模型解读】从2D卷积到3D卷积,都有什么不一样的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 【研究院】滴滴研究院,都在做什么
- 下一篇: 2019年有三AI“春季”划,给我一个荣