圆形的CNN卷积核?华中科大清华黄高团队康奈尔提出圆形卷积,进一步提升卷积结构性能!
作者丨小馬
編輯丨極市平臺
寫在前面
目前正常卷積的感受野大多都是一個矩形的,因為矩形更有利于儲存和計算數據的方便。但是,人類視覺系統的感受野更像是一個圓形的。因此,作者就提出,能不能將CNN卷積核的感受野也變成圓形呢?作者通過一系列實驗,發現了圓形的卷積核確實比方形的卷積效果會更好。基于此,作者在本文中提出了一種卷積核大小可變的并且聚合了方形和圓形特點的集成卷積核。作者在模型訓練結束后,采用了一種重參數的方法對模型的結構和參數進行修改,使得模型在inference的時候并沒有引入額外的參數量和計算量。最終作者在分類任務的三個數據集ImageNet、CIFAR-10、CIFAR-100上進行了測試,發現了新的卷積核能夠有比較大的性能提升(在MobileNetV3-Small上提高了5.20%的top-1準確率,在MobileNetV3-Large上提高了2.16%的top-1準確率)。
剛剛搜索了一下人的視野范圍是什么形狀的。發現其實人眼的感受野也不是圓形的,而是一個橢圓形的。類似下面的這樣:
(圖片來自學習強國app慕課中的“高維看世界”)
好奇之后會不會有工作進行了提出一個橢圓形的卷積核。除此之外,人眼的感知除了“上下左右”,還有“前后”。之后會不會有人提出一個帶深度的卷積核(比如橢球形狀的卷積核)。目前的卷積在通道維度上都是進行非常充分的建模,導致在通道維度上的建模很多時候是冗余的(這一點Involution[1]中也有提到),所以說不定用一個帶“深度”信息的卷積核,只對相鄰通道信息進行建模,反而能夠提升模型的泛化能力。
1. 論文和代碼地址
Integrating Circle Kernels into Convolutional Neural Networks
論文地址:https://arxiv.org/abs/2107.02451
代碼地址:未開源
2. Motivation
從LeNet開始,矩形的卷積核一直都是CNN的標配。在這期間也有一些工作研究了可變形的卷積,但是,雖然可變形的卷積能夠提高模型的performance,但是不可避免的引入了額外的參數和計算量。
因此,受人眼視覺系統感受野的啟發,作者就想能不能提出一個圓形的卷積操作,相比于矩形的卷積,圓形的卷積核主要有以下幾個優點:
1) 圓形卷積核的感受野和生物視覺的感受野更加相似;
2) 卷積核的感受野通常應該是各個方向都是對稱的,這樣可以適應全局或者局部輸入特征在不同方向上的信息變化,圓形卷積核具備這個性質,但是矩形卷積核只在固定的幾個方向是對稱的;
3)之前也有工作表明,矩形卷積核的有效感受野更加接近圓形的高斯分布,因此,為什么不直接用一個圓形的卷積核呢?
在構造圓形卷積核時,由于感受野上的一些點通常不在網格上,因此作者采用雙線性插值進行逼近,并提取了相應的變換矩陣。
最終,作者并沒有采用了單獨的圓形卷積,而是采用一種圓形和方形集成的卷積,并在訓練過程中采用自適應的卷積核大小(也就是說,每個集成的卷積核都有一對方核和圓核。這兩個核共享權值矩陣,但有不同的變換矩陣 )。
最終作者在分類任務的三個數據集ImageNet,CIFAR-10,CIFAR-100上做了實驗,在不同baseline結構上,方形和圓形集成的卷積核相比于baseline都有明顯的性能提升。
3. 方法
3.1. 圓形卷積核 VS 方形卷積核
圓形卷積核(b)和方形卷積核(a)如上圖所示
對于一個3x3的方形卷積,可以用下面的公式表示(對感受野內的特征進行加權求和):
對于半徑為1的圓形卷積,可以被建模成下面的公式:
由于圓核的接受場包含不是整數的位置,所以作者使用了雙線性插值獲取相應的采樣值:
因此,將上面的兩個公式進行結合,我們就可以得到下面統一的圓形卷積核的公式:
(注意,這里的圓形的卷積核的公式看上去比較復雜,但其實由于乘法的結合律,這里的矩陣WWW和BBB其實是可以合成一個新的矩陣的,所以在測試的時候其實并不會引入新的計算量和參數量)
(另外,再通俗的解釋一下,這里的圓形卷積計算其實方形卷積計算是一樣的,都是對感受野內特征信息進行加權求和;不同的是,方形的卷積核的特征信息都可以輕松的獲得,但是圓形感受野內的信息由于位置往往不是整數,所以需要用雙線性插值的方法,計算相應位置的特征值)
3.2. 集成圓形卷積核和方形卷積核
在本文中,作者并沒有單獨的使用圓形或者方形的卷積,而是對這兩個卷積進行了集成。
每個集成的卷積核都有兩種感受野(圓形和方形)。訓練時,每層的所有卷積核都隨機選擇的圓形或者方形的卷積核進行訓練。所以,一個集成核的感受野是一個伯努利隨機變量E~Ber(S,R;0.5)E ~ Ber(S, R; 0.5)E~Ber(S,R;0.5),集成核的輸出卷積結構可以被表示成:
由于每一層都有兩種卷積方式,并且在訓練的時候,每一層的卷積都會隨機選擇這兩種卷積中的任意一種,所以對于L層,就有2L2^L2L中不同的子網絡結構。(這一步隨機選擇也是大大提高了模型的學習空間 )
3.3. 可學習大小的卷積核
不同感受野大小的圓形和方形卷積核如上圖所示。在訓練時,作者采用了一個可學習的參數aaa動態控制了卷積核感受野的大小。
方形卷積核的感受野為Ds=aSD_s=aSDs?=aS,圓形卷積核的感受野為Dc=aRD_c=aRDc?=aR。由于在訓練過程中,卷積核的形狀是隨機選擇的,所以訓練過程的感受野大小也符合伯努利分布Dc=aRD_c=aRDc?=aR。
3.4. 測試時重參數
卷積的過程可以用下面的公式表示:
上面也提到了BBB在訓練完成后其實是一個固定的矩陣,由于乘法的結合律,其實是可以將BBB矩陣的參數和WWW的參數進行合并(類似兩個FC變成一個FC)。可以在推理之前保存由轉換矩陣重參數后的新權重,模型就不再需要根據測試的偏移量逐點進行特征映射。
3.5. Integrated Kernels
對于一個正常的卷積,他的所有參數都是靜態,可以被表示成:
帶有自適應參數的卷積可以被表示成:
其中$ \hat{\theta}$表示動態自適應的參數。
本文的訓練的網絡結構如上圖所示,本文模型的輸出結果可以被表示成:
其中Mul()Mul()Mul()是一個多重伯努利分布,因為每一層的卷積過程都是隨機的,每一層隨機從N中卷積方式里選擇一種,對于L層,就有NLN^LNL種不同的組合方式。
4.實驗
4.1. Circle Kernels VS Square Kernels
如上圖所示,感受野越大,圓形卷積的感受野就更像一個圓形
如上表所示,作者在WRNCifar和DenseNetCifar上做了實驗。隨著卷積核大小的增加,圓核比方核的優勢變得更加顯著,表明了圓核的優越性。
4.2. Comparison on CIFAR Datasets
XXX-Int-SC-F表示具有固定大小的方形和圓核,XXX-Int-SC-L表示具有可學習大小的方形和圓核。
可以看出,在沒有數據增強的情況下,方核和圓核的方法相較于baseline都有性能的提升,并且可學習大小的集成核在性能上表現最好。
4.3. Comparison on ImageNet
在ImageNet上,作者基于MobileNet和ResNet進行了實驗。可以看出,圓核的方法會比方核的性能要更好。總體來說,可以學習的圓核和方核在性能上表現會更好一些。
4.4. Ablation Studies
作者進一步探究了不同核的數量對實驗結果的影響。在沒有數據增強的情況下,隨著集成核數量的增加,模型性能表現出不斷增長的趨勢。在有數據增強的情況下,圓核并沒有展現出性能的提升。
4.5. 可視化
可以看出圓核的可視化結果明顯比方核會更加精細、更容易區分物體、更加關注在圖片的主體內容上。
5. 總結
基于人類的視覺感知原理,作者提出了一種更接近人類視覺感受的卷積核——圓形卷積核,作者也通過實驗證明了,在沒有數據增強的情況下,圓形卷積核的表現確實比方形卷積核要好。但是有了數據增強之后,圓形卷積核的性能并沒有提升,反而下降了。更重要的一點是,沒有數據增強集成核的性能也沒有比用了數據增強方核性能要好,這就表明了,圓核帶來的效益沒有數據增強帶來的效益高,而且圓核的效益不能和數據增強的效益兼容。
所以本質上,這篇工作只是在這個方向上開了一個頭,還有很多工作可以基于本文繼續開拓。另外,個人覺得,由于圓形卷積核在各個方向都是對稱的,所以相比于方形卷積核,圓形確實更適合作為感受野的形狀。
參考文獻
[1]. Li, Duo, et al. “Involution: Inverting the inherence of convolution for visual recognition.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . 2021.
[2]. Wenjie Luo, Yujia Li, Raquel Urtasun, and Richard Zemel. Understanding the effective receptive field in
deep convolutional neural networks. In Advances in Neural Information Processing Systems, volume 29,
pages 4898–4906, 2016.
總結
以上是生活随笔為你收集整理的圆形的CNN卷积核?华中科大清华黄高团队康奈尔提出圆形卷积,进一步提升卷积结构性能!的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Multi-Scale Densenet
- 下一篇: CVPR 2021 Short-vide