【深度学习】你心目中 idea 最惊艳的深度学习领域论文是哪篇?
科研路上我們往往會(huì)讀到讓自己覺(jué)得想法很驚艷的論文,心中對(duì)不同的論文也會(huì)有一個(gè)排名。
我們來(lái)看看各路大神是怎么評(píng)價(jià)的。
論文鏈接 https://arxiv.org/abs/1410.3916
關(guān)于計(jì)算機(jī)視覺(jué)領(lǐng)域,@taokongcn分享了幾個(gè)重要的工作。
1. Fully Convolutional Networks for Semantic Segmentation
論文鏈接 https://arxiv.org/abs/1411.4038
全卷積神經(jīng)網(wǎng)絡(luò)FCN:相信做物體識(shí)別檢測(cè)分割的同學(xué)都非常熟悉這個(gè)工作,可以看作是開(kāi)啟和奠定了用FCN做實(shí)例和像素級(jí)別理解的一系列方法的先河,思想非常簡(jiǎn)單:直接端到端利用全卷積網(wǎng)絡(luò)預(yù)測(cè)每個(gè)位置的標(biāo)簽。后續(xù)非常多的方法,包括Mask R-CNN、各種單階段檢測(cè)器、包括3D、video的諸多方法均或多或少受此簡(jiǎn)單想法的啟發(fā)。
2. Faster R-CNN
論文鏈接?https://arxiv.org/abs/1506.01497
Faster R-CNN:現(xiàn)在回想起來(lái),能在2015年想到Anchor這個(gè)想法真的是一個(gè)跨時(shí)代的,這個(gè)思想雖然簡(jiǎn)單但影響到了幾乎所有的實(shí)例級(jí)別的理解任務(wù)。不多說(shuō),懂得都懂。
3. Deformable Convolutional Networks
https://openaccess.thecvf.com/content_iccv_2017/html/Dai_Deformable_Convolutional_Networks_ICCV_2017_paper.html
可形變卷積DCN:通過(guò)簡(jiǎn)單的offset學(xué)習(xí)和變換,賦予了卷積神經(jīng)網(wǎng)絡(luò)更加可形變的能力,想法很簡(jiǎn)單很work,目前已經(jīng)成為各種打比賽的漲點(diǎn)神器。
復(fù)旦大學(xué)碩士生@陀飛輪:當(dāng)年看Deformable Convolutional Networks(DCN)的時(shí)候最為驚艷,可能看過(guò)的文章少,這種打破固定尺寸和位置的卷積方式,讓我感覺(jué)非常驚嘆,網(wǎng)絡(luò)怎么能夠在沒(méi)有直接監(jiān)督的情況下,學(xué)習(xí)到不同位置的offset的,然后可視化出來(lái),能夠使得offset后的位置能夠剛好捕捉到不同尺寸的物體,太精彩了!
4. CAM: Learning Deep Features for Discriminative Localization
論文鏈接?https://www.cv-foundation.org/openaccess/content_cvpr_2016/html/Zhou_Learning_Deep_Features_CVPR_2016_paper.html
CAM@周博磊老師代表工作之一,如何用已有的分類(lèi)網(wǎng)絡(luò)去做定位?思想極為簡(jiǎn)單但有效:將最后一層的權(quán)重與對(duì)應(yīng)特征層加權(quán)。目前幾乎所有做圖像弱監(jiān)督定位分割的工作均或多或少吸收此思想,影響深遠(yuǎn)。
?????對(duì)你沒(méi)有看錯(cuò),圖像關(guān)注的部分就是將該類(lèi)的fc層中的權(quán)重和feature maps對(duì)應(yīng)加權(quán)求和就行了。。。說(shuō)實(shí)話我覺(jué)得這個(gè)真的是經(jīng)過(guò)很多實(shí)驗(yàn)才發(fā)現(xiàn)的idea。因此通過(guò)這個(gè)CAM我們便可知這個(gè)網(wǎng)絡(luò)到底在學(xué)什么東西。
至于后面CAM變體例如grad-cam等大家可以去查閱了解。通過(guò)這個(gè)驚艷的CAM,我覺(jué)得是開(kāi)了基于弱監(jiān)督圖像分割領(lǐng)域的先河,簡(jiǎn)直是祖先級(jí)別的神工作。
為什么這么說(shuō)呢,基于image-level的弱監(jiān)督分割旨在僅通過(guò)分類(lèi)標(biāo)簽而生成對(duì)應(yīng)的分割標(biāo)簽圖,(畢竟手工標(biāo)記分割圖上的像素太燒錢(qián)了呀哈哈哈 )你看看CAM,如果通過(guò)閾值一下的話,那些熱點(diǎn)處的不就可以作為置信度高的前景像素標(biāo)簽了嘛!!!
于是你便可以看到大量的弱監(jiān)督領(lǐng)域分割之作都是在這個(gè)CAM之上完成的。不僅如此,CAM也在可解釋領(lǐng)域中被作為一種基本的工具。這篇五年前的文章至今仍在視覺(jué)領(lǐng)域中放光發(fā)熱,讓很多的學(xué)者以此為基石展開(kāi)研究。
我也是很感謝這篇工作讓我接觸到弱監(jiān)督領(lǐng)域。畢竟是我轉(zhuǎn)做計(jì)算機(jī)視覺(jué)讀的第一篇文章hhhh,所以,thank you, CAM!
5. CLIP: Learning Transferable Visual Models From Natural Language Supervision
論文鏈接?https://cdn.openai.com/papers/Learning_Transferable_Visual_Models_From_Natural_Language_Supervision.pdf
跨語(yǔ)言-圖像的預(yù)訓(xùn)練是很多人都能想到的idea,但是一直效果不夠。這個(gè)工作體現(xiàn)出了作者們極度的自信和能力,竟然收集了大量大量大量的paired數(shù)據(jù)真正做work了!感覺(jué)自己做的工作就是渣渣,,,
知乎上@王峰提出了一個(gè)非常好的圖示:
人臉識(shí)別方面,ECCV16的Center Loss和ICML16的Large Margin Softmax(是同一波人做的)。
個(gè)人認(rèn)為這兩篇文章最驚艷的地方并不在于方法,而在于分析問(wèn)題的方式,尤其是這張圖:
之前人們并不是沒(méi)有研究過(guò)特征分布,但是用的方法都還是傳統(tǒng)的一些降維手段如t-SNE,但t-SNE畢竟是個(gè)非線性降維方法,并不能真實(shí)地表現(xiàn)出原始特征分布。
實(shí)際上神經(jīng)網(wǎng)絡(luò)自己就是一個(gè)非常好的降維工具,直接將fc層的輸出維度設(shè)置為2,那么每個(gè)樣本的特征就只有兩維,可以直接畫(huà)在一個(gè)平面上,得到的可視化圖像就是真正的特征分布。
有了這個(gè)可視化手段,人們發(fā)現(xiàn)原來(lái)softmax loss訓(xùn)練出來(lái)的特征是這樣一個(gè)放射型分布,類(lèi)與類(lèi)之間是按角度分隔開(kāi)的,于是才有了后續(xù)一系列工作關(guān)于角度的分析。
時(shí)至今日,這兩個(gè)算法已經(jīng)被更好的算法取代了,但分析問(wèn)題的方式一直延續(xù)至今都還在被廣泛使用。
@rainy分享了一篇小眾方向(視頻增穩(wěn)/Video Stabilization)的論文,可能不是那種推動(dòng)領(lǐng)域進(jìn)步的爆炸性工作,這篇論文我認(rèn)為是一篇比較不錯(cuò)的把傳統(tǒng)方法deep化的工作。
論文鏈接 https://arxiv.org/pdf/2011.14574.pdf
看樣子應(yīng)該是投稿CVPR21,已開(kāi)源。
論文鏈接?https://github.com/Annbless/DUTCode
首先介紹一下視頻增穩(wěn)的定義,如名稱(chēng)所示,視頻增穩(wěn)即為輸入一系列連續(xù)的,非平穩(wěn)(抖動(dòng)較大)的視頻幀,輸出一系列連續(xù)的,平穩(wěn)的視頻幀。
由于方向有點(diǎn)略微小眾,因此該領(lǐng)域之前的工作(基于深度學(xué)習(xí))可以簡(jiǎn)單分為基于GAN的直接生成,基于光流的warp,基于插幀(其實(shí)也是基于光流的warp)這么幾類(lèi)。這些論文將視頻增穩(wěn)看做了“視頻幀生成問(wèn)題”,但是理想的視頻增穩(wěn)工作應(yīng)該看做“軌跡平滑”問(wèn)題更為合適。
而在深度學(xué)習(xí)之前劉帥成大神做了一系列的視頻增穩(wěn)的工作,其中work的即為meshflow。這里貼一個(gè)meshflow解讀的鏈接。(論文鏈接https://www.yuque.com/u452427/ling/qs0inc)
總結(jié)一下,meshflow主要的流程為“估計(jì)光流-->估計(jì)關(guān)鍵點(diǎn)并篩選出關(guān)鍵點(diǎn)的光流-->基于關(guān)鍵點(diǎn)光流得到mesh中每一個(gè)格點(diǎn)的motion/軌跡-->進(jìn)行軌跡平滑并得到平滑后的軌跡/每一個(gè)格點(diǎn)的motion-->基于motion得到滿足平滑軌跡的視頻幀”。
總結(jié)了meshflow之后,這篇DUT主要進(jìn)行的工作其實(shí)很簡(jiǎn)單,在meshflow的框架下,將其中所有的模塊都deep化:
LK光流---->PWCNet
SIFT關(guān)鍵點(diǎn)----->RFNet
基于Median Filters的軌跡平滑------>可學(xué)習(xí)的1D卷積
除此之外,由于原始的meshflow是基于優(yōu)化的方法,因此DUT在替換了模塊之后依舊保留了原始的約束項(xiàng),并且可以使用無(wú)監(jiān)督的方式完成訓(xùn)練,效果也好于一票supervised的方法。
邁微推薦
看了很多大牛的推薦,經(jīng)過(guò)個(gè)人思考后,邁微也整理了詳細(xì)的論文推薦名單。
免費(fèi)下載鏈接:https://github.com/Charmve/PaperWeeklyAI
之前分享的這幾篇也給出了必讀論文篇目及下載鏈接。
往期精彩回顧適合初學(xué)者入門(mén)人工智能的路線及資料下載機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印機(jī)器學(xué)習(xí)在線手冊(cè)深度學(xué)習(xí)筆記專(zhuān)輯《統(tǒng)計(jì)學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專(zhuān)輯 AI基礎(chǔ)下載機(jī)器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)專(zhuān)輯 本站qq群704220115,加入微信群請(qǐng)掃碼:總結(jié)
以上是生活随笔為你收集整理的【深度学习】你心目中 idea 最惊艳的深度学习领域论文是哪篇?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 【GNN】AAAI2021 | 图神经网
- 下一篇: 萝卜家园win11 32位官方旗舰版is