CVPR 2020 三篇有趣的论文解读
?PaperWeekly 原創 ·?作者|文永亮
學校|哈爾濱工業大學(深圳)碩士生
研究方向|視頻預測、時空序列預測
在深度學習中我們真的需要乘法?
論文標題:AdderNet: Do We Really Need Multiplications in Deep Learning?
論文來源:CVPR 2020
論文鏈接:https://arxiv.org/abs/1912.13200
代碼鏈接:https://github.com/huawei-noah/AdderNet
這篇論文是北大、諾亞、鵬城、悉大的論文,觀點比較有趣,在喜提?CVPR 2020?之前也比較火了,下面我可以介紹一下。
論文指出我們可以定義如下公式,首先我們定義核大小為 d,輸入通道為?,輸出通道為的濾波器,長寬為 H, W 的輸入特征為。
其中?為相似度計算方法,如果設?,這就是卷積的一種定義方法了。那么論文就引出加法網絡的基本算子如何定義的:
如上定義只用了加法的?距離,可以有效地計算濾波器和特征之間的相似度。
在 CIFAR-10 和 CIFAR-100 以及 ImageNet 的實驗結果:
可以看到在把卷積替換成加法之后好像也沒有太多精度的丟失,正如標題說的,我們真的需要這么多乘法嗎?
Deep Snake:用于實例分割
論文標題:Deep Snake for Real-Time Instance Segmentation
論文來源:CVPR 2020
論文鏈接:https://arxiv.org/abs/2001.01629
代碼鏈接:https://github.com/zju3dv/snake
這篇工作是來自浙江大學 Deepwise AI Lab 的,我起初看到感覺十分有趣,這篇論文的實例分割并不是每個像素的去分,而是用輪廓圍住了實例。代碼已經開源,有興趣的同學可以去看看。
基本思想是給實例一個初始輪廓,用循環卷積(Circular Convolution)方法學習更新輪廓,最后得到 offsets。
我在下面介紹一下?Circular Convolution:
我們定義特征為藍色部分的圓圈,那么它可以表達為?,*是標準的卷積操作,整個循環卷積就是每一個藍色的特征與黃色的 kernel 相乘得到對應高亮的綠色輸出,一圈下來就得到完整的輸出,kernel 也是共享的。
我們可以通過圖 (b) 看到整個算法的 pipeline,首先輸入圖片,實驗中使用了 CenterNet 作為目標檢測器,Center Net 將檢測任務重新定義為關鍵點檢測問題,這樣得到一個初始的 box。
然后取每邊的中點連接作為初始的?Diamond contour(實際實驗中作者說他 upsample 成了 40 個點),再通過變形操作使點回歸到實例的邊界點,然后通過邊界點一半向外拓展 1/4 的邊長得到一個Octagon contour(八邊形輪廓),再做變形操作最終回歸到目標的形狀邊界。
作者在三個數據集上做了實驗,分別是?Cityscapes,Kins,Sbd??梢钥吹皆?Kins 上的數據集的 AP 值比 Mask RCNN 好一些。
其分割的效果也不錯且有點有趣:
可以看到確實挺快的,Sbd 數據集的 512?×?512 的圖片,在 Intel i7 3.7GHz,GTX 1080 Ti GPU 達到 32.3 fps。
BIN:模糊視頻插幀
論文標題:Blurry Video Frame Interpolation
論文來源:CVPR 2020
論文鏈接:https://arxiv.org/abs/2002.12259
代碼鏈接:https://github.com/laomao0/BIN
這篇 paper 是上海交通大學的翟廣濤教授組的模糊視頻插幀技術,主要是為了提高視頻質量并且達到插幀的效果,我覺得這篇論文十分優秀,只可惜代碼還在重構中,repo 說 6.14 公布,這也有點久啊。
這篇論文設計的很精巧,模型構建中分為兩塊:
金字塔模塊
金字塔間的遞歸模塊
如下圖所示:
其實這網絡結構很容易理解,都是輸入,當我們取 Scale 2 的時候,輸入取?,我們可通過?得到中間插幀?,同理可得?,最后通過?和?插幀得到?。
數學表達如下:
但是 Scale 3 和 4 的時候就不一樣了,我舉例 Scale 3 的時候,Scale 4 同理:
這樣通過??就會得到中間 1,3,5 的插幀,或許有人疑惑為什么會有?和?,這兩個有什么區別,這里主要就是因為作者做了一個 Cycle Consistency 的 loss,主要是保證中間產生的幀與金字塔最后產生的幀保持空間上的一致性。
▲ 金字塔模塊的構建有(a)Backbone (b)Residual Dense Block 兩種
其中金字塔模塊具有可調節的空間感受域和時間范圍,可以從圖中看到,作者采用了三種 scale,隨著 scale 的增加,網絡將會拓展的更深,因此具有更大的空間感受域,同時在時間范圍內輸入的數量會需要更多,所以說時間范圍也正是如此,從而控制計算復雜度和復原能力。
金字塔模塊使用普通的卷積神經網絡搭建而成,其中同一級的共享權重,這其實節省了很多參數空間,但是這樣是否就缺乏了時間上的信息呢?
如果采用 Scale 2 的時候,我們可以分析金字塔之間如何傳遞信息的,如圖中 (b) 部分:
ConvLSTM?構成的?Inter-Pyramid Recurrent Module?實際上就是為了傳遞時空上的信息,這里 Time Step 為 2,與?實際上是同一張輸入,但是進入了兩個不同的模塊,整體 step 前進了一步,其中的 ConvLSTM 就是為了傳遞 C 和 H 的,其公式如下:
損失函數非常的簡單,這里不做過多的說明,分為了重構誤差??(Pixel Reconstruction)?和一致性誤差??(Cycle Consistency)?:
數據集用的是:Adobe240?和?YouTube240,可以看到論文的效果取了 Scale=4 的時候跟 GT 已經看不出太大的區別了。
而且?Scale 越大圖片質量就越好:
點擊以下標題查看更多往期內容:?
圖自編碼器的起源和應用
圖神經網絡三劍客:GCN、GAT與GraphSAGE
如何快速理解馬爾科夫鏈蒙特卡洛法?
深度學習預訓練模型可解釋性概覽
ICLR 2020 | 隱空間的圖神經網絡
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
???? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的CVPR 2020 三篇有趣的论文解读的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 华为 Watch Ultimate 智能
- 下一篇: 消息称三星 Galaxy Ring 智能