从IBN-Net到Switchable Whitening:在不变性与判别力之间权衡
提升模型跨場景的泛化能力是實際應用不可避免的問題。本文介紹了我們的兩個工作對此進行的探索,分別收錄于 ECCV 2018 和 ICCV 2019。本文側(cè)重講述工作背后的思路,希望對讀者有所啟示。
作者丨潘新鋼
學校丨香港中文大學博士生
研究方向丨計算機視覺
提升模型對于圖像外觀變化的適應性是計算機視覺中一個重要問題。當測試數(shù)據(jù)與訓練數(shù)據(jù)有較大外觀差異時(例如真實數(shù)據(jù) Cityscapes 與虛擬數(shù)據(jù) GTA5),模型的性能會顯著下降,該問題通常被稱為域間隙(domain gap)。目前對此的常用解決方案是遷移學習(transfer learning)或域適應(domain adaptation)。
這些方案針對訓練方式進行改進,但是受限于模型自身的性能,當模型適應于域 A 時,它對域 B 的適應性通常會下降。一種更理想的情況是一個模型就可以適應多樣的圖像外觀。因此,我們考慮一種更加基本的方案:改進模型本身,即在模型中引入對圖像的外觀不變性(appearance invariance)。?
在神經(jīng)網(wǎng)絡中,不變性是一種很有用的特性。例如,常用的 max pooling 引入了局部空間不變性,使神經(jīng)網(wǎng)絡對圖片的局部空間變化有更好的適應性。我們希望通過引入外觀不變性,使得即使輸入圖片中物體的亮度,顏色,風格等發(fā)生變化,也不會影響模型的輸出結(jié)果。例如在分類任務中達到如下效果:?
輸入:
▲?同一物體可能呈現(xiàn)出多樣的外觀變化
輸出:羊駝?
為了引入外觀不變性,我們首先想到的是從圖像風格遷移(style transfer)工作中尋找線索。圖像風格遷移可以將圖 A 的風格轉(zhuǎn)換成圖 B 的,這里的風格包括圖像紋理、顏色、明暗等視覺因素,與我們關(guān)注的圖像外觀有很大的重疊。那么如果存在一種變換能夠?qū)⑺袌D片的風格變化成同一種風格,這就是我們想要的外觀不變性。這樣的變換是否存在呢,答案是肯定的,并且十分簡潔。
在圖像風格遷移領(lǐng)域,學者們發(fā)現(xiàn)在 ImageNet 上訓練過的 VGG 網(wǎng)絡的特征各個通道的均值與標準差很好地編碼了圖像的風格信息,因此通過調(diào)整該均值與標準差,再經(jīng)過一個額外訓練的 decoder,就可以實現(xiàn)風格遷移,該方法稱作 adaptive instance normalization?[1]。那么如果我們將所有圖片的神經(jīng)網(wǎng)絡特征的各個通道的均值與標準差通過 instance normalization(IN)變得相同,就消除了這些圖片在風格上的差異,即引入了風格不變性。
▲?我們通過一個小實驗驗證這個想法。如圖,IN確實可以一定程度上消除圖片在風格上的差異
不變性與判別力的trade-off
那么為了在模型中引入外觀不變性,最直接的方法就是將 BN 都換成 IN。但事實上這樣會顯著降低模型性能,這也是為什么 IN 之前一直沒有被用在高級視覺任務中(分類,檢測等)。
這是因為,IN 雖然引入了不變性,但是減少了判別力(discriminative power)。因為 IN 操作損失了特征的均值與標準差信息,而實際上它們不僅表達風格信息,也表達了對任務有用的類別等信息。事實上,隨著網(wǎng)絡加深,特征的均值與標準差表達的外觀信息越來越少,語義信息越來越多,如下圖所示:
▲?隨著層數(shù)加深,圖像風格差異造成的特征散度越來越少,圖像類別差異造成的特征散度越來越大
因此,為了引入外觀不變性同時盡可能保留判別力。我們在模型前半部分(如 ResNet 前三組 residual groups)引入少量 IN,深層保留 BN。只通過這樣微小的改動就可以在不改變模型復雜度的情況下顯著提升性能,我們把這種網(wǎng)絡設計稱作 IBN-Net(具體設計方式參見原論文?[2])。
▲?IBN-Net在ImageNet上顯著提升各個模型性能(數(shù)字越低越好)
由于在模型設計上引入了外觀不變性,在 domain adaptation 任務中,即使不使用目標域的數(shù)據(jù),IBN-Net 也可以實現(xiàn)跨域的效果提升:
在 person ReID 任務中,模型對圖片中人物外觀變化的適應性尤為重要,基于 ResNet50 的 IBN-Net 甚至可以超過 SE-ResNeXt101:
▲?表格來自 https://github.com/michuanhaohao/reid-strong-baseline [3]
巧合的是,在我們投稿后兩個月,arxiv 上就有韓國學者放出動機幾乎一樣的工作?[4]。
從IBN-Net到Switchable Whitening
隨后,為了更合理地引入外觀不變性以及提升模型對不同任務的適應性,我們基于以下因素對 IBN-Net 進行了拓展:?
1. 圖像風格遷移領(lǐng)域的學者發(fā)現(xiàn)協(xié)方差比標準差更好地編碼了圖像風格信息?[5];?
2. 白化(whitening = center + scale + decorrelate)比標準化(standardization = center + scale)有更好的優(yōu)化性質(zhì),即使得 SGD 更接近 NGD(自然梯度)[6];?
3. IBN-Net 中 IN 與 BN 的數(shù)量依賴手工設計,并非最優(yōu),且不同任務需要的各種 normalization 數(shù)量可能不同。?
因此,我們將各種不同的白化 (BW, IW) 和標準化 (BN, IN, LN) 方法統(tǒng)一于一種通用的形式,并且各種方法的比重可以根據(jù)特定任務學習,稱作自適配白化(Switchable Whitening,以下簡稱 SW)[7]。
具體而言,這些白化/標準化方法的區(qū)別可歸納為均值和協(xié)方差的計算方式不同,因此我們用可學習的權(quán)重系數(shù)對這些統(tǒng)計量進行加權(quán)平均,再用得到的均值和協(xié)方差進行白化操作,即:
其中:
其中??和??是特定的白化/標準化方法的均值和協(xié)方差矩陣,?是對應的可直接通過反向傳播學習的比例系數(shù),例如:?
對于batch whitening(BW),有:
對于 instance whitening(IW),有:
BN 和 IN 可以看作 BW 和 IW 只考慮協(xié)方差矩陣對角線的形式,例如。?
?通常通過 SVD 來計算,但這在現(xiàn)有的庫中 GPU 實現(xiàn)的效率很低,因此我們借助?[8]?中的牛頓法進行加速,使得 SW 帶來的額外開銷可以接受。?
受益于更靈活的統(tǒng)計量形式和可選擇性,SW 帶來了更顯著的性能提升:
▲?ImageNet validation set結(jié)果(數(shù)字越低越好)
▲?SW基于強大的PSPNet101上也能取得不錯的提升,在ADE20K上達到SOTA
在實例分割任務中也顯著超越 SyncBN 和 GN,并被 mmlab 檢測天團用在了 COCO 比賽中。
▲?在backbone中為節(jié)省計算量只有部分BN替換成了SW,具體請參見論文或代碼
SW 在不同任務中傾向于選擇不同的白化/標準化統(tǒng)計量,體現(xiàn)出適應性:
▲?SW在不同任務中學到的各種統(tǒng)計量的比重,上下分別對應于兩種setting
例如,在圖像風格遷移任務中,SW 會傾向于選擇 IW,而在圖像風格遷移領(lǐng)域中,學者們也經(jīng)歷了 BN->IN->IW 的探索。有趣的是 SW 的選擇性與人的探索結(jié)果相一致。另外,SW 在分類任務中比在分割任務中會傾向于選擇更多的 IW,我們推測這是因為分類任務中數(shù)據(jù)的外觀多樣性更大,因此需要更多的外觀不變性來應對。
小結(jié)與討論
1. IN/IW 以損失信息為代價帶來不變性。從?[9]?的角度也可以理解為,使用了 IN/IW 的模型對每一張測試圖片做了 domain adaptation。另外,由于 IN/IW 不針對特定目標域,所以也是一種 domain generalization 方法。?
2. 在圖像理解任務中,對一個模型使用任何一種歸一化方式都非最優(yōu),最優(yōu)情況介于 IN/IW 的不變性和 BN/BW 的判別力之間。關(guān)于不變性與判別力之間 trade-off 的討論在 deep learning 之前就有,參見?[10]。?
3. 通往跨場景泛化能力更強的模型仍有很長的路要走,除了本文關(guān)注的外觀變化,旋轉(zhuǎn)、視角、背景等的變化都可能導致模型性能的顯著下降?[11],這些還需要更多后續(xù)的工作來解決。
IBN-Net 論文:
論文:https://arxiv.org/abs/1807.09441
代碼:https://github.com/XingangPan/IBN-Net
Switchable Whitening 論文:
論文:https://arxiv.org/abs/1904.09739
代碼:https://github.com/XingangPan/Switchable-Whitening
Reference
[1] Huang, Xun, and Serge Belongie. "Arbitrary style transfer in real-time with adaptive instance normalization." ICCV2017.?
[2] Pan, Xingang, et al. "Two at once: Enhancing learning and generalization capacities via ibn-net." ECCV2018.?
[3] Luo, Hao, et al. "A Strong Baseline and Batch Normalization Neck for Deep Person Re-identification." arXiv preprint arXiv:1906.08332(2019).?
[4] Nam, Hyeonseob, and Hyo-Eun Kim. "Batch-instance normalization for adaptively style-invariant neural networks." NIPS2018.?
[5] Li, Yijun, et al. "Universal style transfer via feature transforms." NIPS2017.?
[6] Desjardins, Guillaume, Karen Simonyan, and Razvan Pascanu. "Natural neural networks." NIPS2015.?
[7] Pan, Xingang, et al. "Switchable whitening for deep representation learning." ICCV2019.?
[8] Huang, Lei, et al. "Iterative Normalization: Beyond Standardization towards Efficient Whitening." CVPR2019.?
[9] Li, Yanghao, et al. "Revisiting batch normalization for practical domain adaptation."arXiv preprint arXiv:1603.04779(2016).?
[10] Varma, Manik, and Debajyoti Ray. "Learning the discriminative power-invariance trade-off." ICCV2007.?
[11] Barbu, Andrei, et al. "ObjectNet: A large-scale bias-controlled dataset for pushing the limits of object recognition models."NIPS2019.
點擊以下標題查看更多往期內(nèi)容:?
CVPR 2019?| 基于“解構(gòu)-重構(gòu)”的圖像分類學習框架
CVPR 2019 | 針對人臉識別的高效黑盒對抗攻擊
通過多標簽相關(guān)性研究提升神經(jīng)網(wǎng)絡視頻分類能力
ICCV 2019 | VrR-VG:聚焦視覺相關(guān)關(guān)系
ICCV 2019?| 適用于視頻分割的全新Attention機制
ICCV 2019 | 沉迷AI換臉?不如來試試“AI換衣
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學習心得或技術(shù)干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創(chuàng)作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發(fā),請在投稿時提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認每篇文章都是首發(fā),均會添加“原創(chuàng)”標志
???? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發(fā)送?
? 請留下即時聯(lián)系方式(微信或手機),以便我們在編輯發(fā)布時和作者溝通
????
現(xiàn)在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 獲取最新論文推薦
總結(jié)
以上是生活随笔為你收集整理的从IBN-Net到Switchable Whitening:在不变性与判别力之间权衡的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: android wifi与连接设备通讯录
- 下一篇: WiFi Direct简介