再破纪录!ECCV 2020 旷视研究院15篇成果总览
圖:ECCV 2020 詞云分析結果
8月23-28日,全球計算機視覺三大頂會之一,兩年一度的 ECCV 2020(歐洲計算機視覺國際會議)即將召開。受到疫情影響,今年的 ECCV 將以線上形式舉辦。據官方統計,本次大會有效投稿5025篇,其中有1361篇被接收,錄用率為27%,較上屆31.8%有所下降。其中,Oral 論文104篇(占總投稿數2%),Spotlight 論文161篇(本屆新增,占總投稿數5%),其余為 Poster。
圖:ECCV 近三屆投稿數據
曠視研究院在本屆大會共有 15 篇成果入選,Oral 論文 2 篇與 Spotlight 論文 1 篇,刷新上屆入選 10 篇的記錄!
曠視研究院本屆被接收工作涉及圖像檢測、圖像對齊、姿態估計、激活函數、CNN架構設計、動態網絡、NAS、知識蒸餾、點云配準、細粒度圖像檢索、遷移學習、機器人等多個領域。為了能夠及時與學界、業界同仁進行交流與分享,后文對全部工作進行了介紹,并附上目前已經放出的論文地址與開源地址。
這樣的戰績不僅反映出曠視研究院在學術與產業前沿技術研究上的實力,也從側面印證了曠視多年來構建的務實、高效的產學研體系所具備的價值:做源自產業的學術研究、解制約當前發展的關鍵技術、理論瓶頸。
另外,為了讓讀者對本屆大會以及近年來CV領域關注的熱點研究方向有一個直觀把握,我們也對近三年來世界三大CV頂會入選論文的標題進行了熱點詞分析,通過對比ECCV 2020和CVPR 2020、ICCV 2019、CVPR 2019、ECCV 2018的結果,大家可以一窺領域內關注的重點在近年來發生的變化,以及大家持續深耕的熱點問題。
?
需要說明的是,由于CVPR會議交稿截止日期是在大會舉辦前1年(即CVPR 2020的文章是2019年提交的),因此在對比中我們將ICCV 2019與CVPR 2020進行對比,將CVPR 2019與ECCV 2018進行對比,進一步再用ECCV 2020與2019年和2018年的數據進行綜合對比。
圖:近三年世界三大CV頂會(CVPR、ECCV、ICCV)論文熱點詞對比,獲取清晰圖片請在公眾號后臺回復關鍵詞“ECCV”
可以發現,近年來持續熱門的領域包括3D視覺、分類/檢測/分割、人臉識別/人體姿態/動作識別、視頻理解、圖像超分辨率等等。采用的熱門方法有模型自動搜索、注意力機制、無/半/自監督表示學習、對抗學習、知識蒸餾等多種方法。
且自監督學習、動態網絡、神經網絡動力學等多個領域因其巨大的學術和產業價值,在近來獲得了越來越多地突破與關注,CV研究在深度學習基礎研究的加持之下,茁壯向前發展。
后續我們也會啟動“10分鐘帶你看ECCV”系列論文視頻解讀,邀請曠視研究院本次入選論文作者分別就其工作進行視頻分享,歡迎感興趣的同學持續關注曠視研究院后續內容。
?
值得一提的是,本次曠視研究院入選ECCV的部分工作使用曠視天元(MegEngine)深度學習框架進行開源。天元(MegEngine)是曠視自研,并在內部經過6年全員使用、打磨的工業級深度學習框架,其誕生之初的設計理念便直指從科研成果到大規模產品應用的高效轉化。
?
作為一款訓練推理一體化的框架,天元(MegEngine)能夠幫助企業與開發者的產品從實驗室原型到工業部署的時間成本大幅縮減,真正實現小時級的轉化能力。
?
歡迎訪問
?
MegEngine WebSite:
https://megengine.org.cnMegEngine GitHub(歡迎Star):
https://github.com/MegEngine
或加入「天元開發者交流QQ群」,一起看直播學理論、做作業動手實踐、直接與框架設計師交流互動。
同時,群內還會不定期給大家發放各種福利:學習禮包、算力、周邊等。
?
「點擊文末閱讀原文查看天元MegEngine相關技術進展」
曠視研究院 ECCV 2020 論文總覽
01
Oral 論文:BorderDet: Border Feature for Dense Object Detection
論文鏈接:https://arxiv.org/pdf/2007.11056v1.pdf
論文代碼:https://github.com/Megvii-BaseDetection/BorderDet
關鍵詞:物體檢測、邊界特征
在物體檢測領域,檢測器一般會通過滑窗的方式來預測圖像網格上的物體,并且還會使用網格中特征點的特征圖來生成邊界框的預測結果。其中的問題在于,雖然這些點的特征使用起來十分方便,但它們往往可能缺乏有用的邊界信息,從而不利于進行精準地定位。因此,本文提出一個簡單、高效的操作“BorderAlign”來提取物體邊界極限點的特征。
基于BorderAlign,曠視研究院還設計了一個全新的檢測框架“BorderDet”。它可以很好地利用邊界信息,實現更強大的分類與更精準的定位效果。在ResNet-50 backbone下,模型只增加很少的時間開銷,就可以在單階段檢測器FCOS上實現 2.8 AP的性能提升(38.6 v.s. 41.4);在ResNeXt-101-DCN backbone下,本文提出的BorderDet獲得50.3 AP,顯著超越現有最佳方法。
02?
Oral 論文:Content-Aware Unsupervised Deep Homography Estimation
論文鏈接:https://arxiv.org/pdf/1909.05983.pdf
論文代碼:https://github.com/JirongZhang/DeepHomography
關鍵詞:Homography變換、深度Homography、圖像對齊、RANSAC
Homography估計是目前眾多圖像對齊應用中都會使用到的基本對齊方法。一般而言,它通過提取并匹配稀疏特征點來實現,不過這樣的機制在面對暗光和缺少紋理的場景時效果不理想。另外,考慮到當前的深度Homography方法在監督學習下會用到合成數據,在無監督學習下會使用視差較小的航拍圖并且全圖計算損失,這兩種方案都忽略了真實世界應用當中來自深度視差與移動物體的重要影響。
因此,在本文中曠視研究院提出一種新型架構的無監督深度homography方法以克服上述問題。具體而言,受到傳統方法中RANSAC過程的啟發,研究人員提出通過學習一個mask來專門選擇可靠的區域以進行homography估計。在損失的計算上,文章根據深度特征而不是之前通過直接比較圖像內容的方式來進行。為了實現無監督學習,研究人員還針對網絡設計了一個全新的triplet損失。在不同場景數據的實驗結果顯示,本文方法較最先進的深度方法與基于特征的方法都更為優越。
03?
Spotlight 論文:Learning Delicate Local Representations for Multi-Person Pose Estimation
論文鏈接:https://arxiv.org/abs/2003.04030
論文代碼:https://github.com/caiyuanhao1998/RSN/
關鍵詞:人體姿態估計、COCO、MPII、特征聚合、注意力機制
在利用特征融合進行人體關鍵點檢測的現有工作中,人們多以inter-level的特征融合為基本策略,而沒有考慮intra-level特征融合能帶來的豐富空間信息。為此在本文中,曠視研究院提出一個全新方法,殘差階梯網絡(Residual Steps Network, RSN)。RSN能聚合同一網絡階段輸出的特征(inta-level 特征),以獲得精準的局部特征表示,該表示保留了豐富的低層空間信息,能夠助力網絡實現精確的關鍵點定位。
此外,研究人員還提出一個高效的注意力機制——姿態修正機(Pose Refine Machine),它能夠在輸出特征上平衡局部與全局表示,進一步修正關鍵點定位效果。本文方法在2019 COCO關鍵點檢測任務上奪冠,在無額外數據與預訓練模型的情況下,在COCO與MPII基準數據集上均取得了最佳效果。
04?
論文題目:Funnel Activation for Visual Recognition
論文鏈接:https://arxiv.org/abs/2007.11824
MegEngine開源:https://github.com/megvii-model/FunnelAct
關鍵詞:funnel 激活函數、視覺識別、CNN
本文在激活函數領域進行了創新,提出一種在視覺任務上大幅超越ReLU的新型激活函數Funnel actication(FReLU),簡單又高效。
具體而言,曠視研究院通過增加可忽略的空間條件開銷將ReLU和PReLU擴展為2D激活函數。ReLU和PReLU分別表示為y = max(x,0)和y = max(x,px)的形式,而FReLU的形式為y = max(x,T(x)),其中T(·)是二維空間條件(2D spatial condition)。
此外,空間條件以簡單的方式實現了像素級建模能力,并通過常規卷積捕獲了復雜的視覺layouts。最后,對ImageNet數據集、COCO數據集檢測任務和語義分割任務進行了實驗,展示了FReLU激活函數在視覺識別任務中的巨大改進和魯棒性。
05?
論文題目:WeightNet: Revisiting the Design Space of Weight Networks
論文鏈接:https://arxiv.org/abs/2007.11823
MegEngine開源:https://github.com/megvii-model/WeightNet
關鍵詞:CNN架構設計、權重生成網絡、動態濾波器
本文提出一個靈活高效的權重生成網絡框架,稱為WeightNet。將SENet與CondConv這兩種獨立且非常有效的方法納入到同一框架中,是一種通用方法。WeightNet通過在注意力激活層上添加一層分組全連接層(group fully-connected layer)從而實現了對這兩種方案的統一。
WeightNet可以直接輸出卷積權重,同時在kernel空間(而非特征空間)上訓練起來既簡單內存消耗又少。憑借其靈活性,該方法在ImageNet和COCO的檢測任務上均超越了現有方法,取得了更好的準確率-FLOPs和準確率-參數平衡。
06
論文題目:Angle-based Search Space Shrinking for Neural Architecture Search
論文鏈接:https://arxiv.org/abs/2004.13431
論文代碼:https://github.com/megvii-model/AngleNAS
關鍵詞:NAS、angle、搜索空間裁剪
在本文中,曠視研究院提出了一個簡單且通用的搜索空間裁剪方法,angle-based 搜索空間裁剪方法(ABS)。ABS通過刪除潛力差的結構來逐步裁剪原始搜索空間。現有NAS方法使用裁剪后的搜索空間能夠降低搜索難度和資源消耗,同時找到更優的結構。
具體而言,研究人員提出了一種基于角度的新性能衡量指標來指導搜索空間裁剪。一系列詳盡的實驗顯示,在共享權重的超網絡中對子模型進行性能排序時,該指標比使用accuracy-based 和magnitude-based的指標更加穩定且一致性更高。此外,angle-based指標在訓練超網絡時收斂也更快,能夠幫助研究人員高效地得到縮小的搜索空間。ABS可以十分方便地應用于大多數NAS方法,且提升效果顯著。
07
論文題目:LabelEnc: A New Intermediate Supervision Method for Object Detection
論文鏈接:https://arxiv.org/abs/2007.03282
論文代碼:https://github.com/megvii-model/LabelEnc
關鍵詞:物體檢測、輔助監督、自編碼器
曠視研究院在本文中提出一種新型的中間監督方法,LableEnc,以提升物體檢測系統的訓練效果。該方案的關鍵創新點是引入了一個全新的標簽編碼函數,將ground-truth標簽映射到潛在嵌入空間上,作為輔助backbone進行訓練的中間監督信息。
本文方法主要涉及2階段訓練步驟。首先,通過一個在標簽空間上定義的自編碼器來優化標簽編碼函數,以達到獲得關于物體檢測器的理想中間表示的目的。然后,利用習得標簽編碼函數,研究人員引入了一個新設計的輔助損失,連接在檢測backbone上,可以提升后面檢測器的性能。
在COCO的實驗結果顯示,本文方法具有很強的通用性,它在多種檢測系統上都實現了約2%的性能提升,無論該系統是單階段還是雙階段架構。另外,本文的輔助結構僅僅在訓練過程中存在,這也即是說,它完全不會影響推理時候的開銷。
08
?
論文題目:Single Path One-Shot Neural Architecture Search with Uniform Sampling
論文鏈接:https://arxiv.org/abs/1904.00420
論文代碼:https://github.com/megvii-model/ShuffleNet-Series
關鍵詞:NAS、一步法、超網絡
一步法(One-Shot)是一個強大的神經網絡模型搜索(Neural Architecture Search/NAS)框架,但是它的訓練相對復雜,并且很難在大型數據集(比如 ImageNet)上取得較有競爭力的結果。在本文中,曠視研究院提出一個單路徑 One-Shot 模型,以解決訓練過程中面對的主要挑戰,其核心思想是構建一個簡化的超網絡——單路徑超網絡(Single Path Supernet),這個網絡按照均勻的路徑采樣方法進行訓練。
所有子結構(及其權重)獲得充分而平等的訓練。基于這個已訓練的超網絡,可以通過進化算法快速地搜索最優子結構,其中無需對任何子結構進行微調。
對比實驗證明了這一方法的靈活性和有效性,不僅易于訓練和快速搜索,并且可以輕松支持不同的復雜搜索空間(比如構造單元,通道數,混合精度量化)和搜索約束(比如 FLOPs,速度),從而便于滿足多種需求。這一方法在大型數據集 ImageNet 上取得了當前最優結果。
09?
論文題目:Iterative Distance-Aware Similarity Matrix Convolution with Mutual-Supervised Point Elimination for Efficient Point Cloud Registration
論文鏈接:https://arxiv.org/abs/1910.10328
論文代碼:https://github.com/jiahaowork/idam
關鍵詞:點云配準
本文提出了一種基于學習的全局點云匹配算法IDAM。該算法的輸入是一組點云對,在提取幾何特征與距離特征后送入迭代相似性矩陣卷積模塊(similarity matrix convolution),可以獲取點云對之間的3d剛體變換矩陣完成匹配。
為了降低計算成本和減少點對誤匹配,提出了hard point elimination和hybrid point elimination兩種可學習的點云下采樣方式來選取重要點,它們通過互監督損失(mutual-supervision loss)進行訓練,不需要人為對點進行任何標注。
該算法可以很方便的和傳統或者基于學習的點云特征進行結合。在ModelNet40數據集上,本文將IDAM與多種傳統點云匹配算法和其他基于學習的點云匹配算法進行了實驗對比。結果表明,IDAM在匹配的精度和速度上,都有很大的優勢,且對于部分重疊或受噪聲影響點云對的匹配魯棒性和未見過點云模型的泛化能力都很強大。
10
論文題目:Prime-Aware Adaptive Distillation
論文鏈接:https://arxiv.org/abs/2008.01458
關鍵詞:知識蒸餾、自適應樣本加權、不確定性學習
本文在知識蒸餾中探究了“哪一個樣本更重要”問題,即蒸餾中的自適應樣本加權。以往蒸餾方法對所有樣本一視同仁,我們發現蒸餾中對簡單樣本賦予更大權重會提升學生模型的性能。
進一步,曠視研究院團隊結合不確定性學習理論,提出一種能自動感知最優樣本并自適應對其加大權重的方法:PAD。PAD不引入額外超參,可輕松與現有蒸餾方法相結合。在分類,度量學習和檢測三大任務,總共六個數據集上,PAD進一步提升了知識蒸餾的性能,取得了SOTA的結果。
11
論文題目:Hierarchical context embedding for region-based object detection
論文鏈接:https://arxiv.org/abs/2008.01338
關鍵詞:物體檢測、語境嵌入、Region-based CNN
在這項工作中,曠視南京研究院對目前兩階段檢測網絡進行了創新,提出利用context信息來提高檢測網絡的分類能力。
具體而言,曠視南京研究院提出的方法包含了三個模塊:
Image-Level Categorical Embedding
Hierarchical Contextual RoI Feature Generation
Early-and-Late Fusion
Image-Level Categorical Embedding模塊通過Multi-Label Loss來學習出帶有context信息的特征;Hierarchical Contextual RoI Feature Generation利用上述帶有context信息的特征和RoI Align操作來產生帶有context信息的RoI特征;Early-and-Late Fusion模塊把帶有context信息的RoI特征和原本檢測網絡的RoI特征進行融合,最終提高檢測器的分類能力。
在FPN、Mask R-CNN和Cascade R-CNN上的實驗結果表明,這個方法能有效提高上述主流檢測器框架的性能。
12?
論文題目:ExchNet: A Unified Hashing Network for Large-Scale Fine-Grained Image Retrieval
論文鏈接:https://arxiv.org/abs/2008.01369
關鍵詞:細粒度圖像檢索; Learning to Hash; 特征對齊; 大規模圖像搜索.
本文嘗試解決的是細粒度哈希問題,通過為細粒度圖片生成二值碼,進而加速細粒度圖片的檢索過程。在文章中,曠視研究院提出了一種名為ExchNet的網絡,它首先基于注意力機制捕捉圖片的全局和局部特征,接著使用本文提出的一種基于特征交換的方法對局部特征進行對齊,最后融合全局和局部特征生成二值碼。
文章最大的創新點在于特征對齊方法,基于如下的假設「對于兩張同類鳥的圖片,交換對應part的局部特征(如圖1的翅膀和圖2的翅膀),不影響這兩張圖片二值碼的生成以及他們的相似性」,我們在訓練過程中會交換同類樣本的局部特征,同時保證同類樣本二值碼的相似性,進而達到隱式的特征對齊目的。
13?
論文題目:Spherical Feature Transform for Deep Metric Learning
論文鏈接:https://arxiv.org/abs/2008.01469
關鍵詞:數據增強、遷移學習
本文在遷移學習領域進行了創新。提出一種在歸一化后的特征空間通過遷移進行數據增強的方法,簡單且有效。
具體而言,傳統的在特征空間內做遷移學習的方法假設不同類別的特征服從方差相同的高斯分布。如果定義特征的“偏移量”為特征向量與類別均值向量的差值,傳統遷移的方法簡單地把“偏移量”疊加到另一個類別的均值上。
本文發現,當特征被歸一化后,即被約束到超球面上后,傳統的遷移方法無論是基本假設還是遷移的方法都已經不成立。基于directional statistics,本文改進原有的“相同方差”假設為更符合球面分布特性的“相似方差”,進而提出了更general的spherical feature transform用于超球面上的特征遷移學習,并且本文還證明了傳統的方法是本文提出方法的一種特例。最后,本文對所提出的遷移方法在人臉識別,度量學習等數據集上進行了大量的實驗和分析,展現了所提出方法的有效性。
14
論文題目:Differentiable Feature Aggregation Search for Knowledge Distillation
論文鏈接:https://arxiv.org/abs/2008.00506
關鍵詞:知識蒸餾、特征聚合、可微分架構搜索
在模型壓縮領域,知識蒸餾技術近年來扮演者愈發重要的角色。它能夠在teacher-student框架中,將復雜、學習能力強的網絡學到的特征表示“知識”蒸餾出來,傳遞給參數量小、學習能力弱的網絡,從而極大提升學生網絡的性能,經濟又高效。近期主流的工作為了提升學生網絡的性能,多采用多教師監督的蒸餾技術,導致需要消耗大量計算資源。
? ? ? ?
為了平衡效率與性能,曠視研究院在本工作中提出DFA,一個2階段可微特征聚合搜索方法,來在單教師知識蒸餾框架下模擬多教師蒸餾。在CIFAR-100和CINIC-10上的實驗結果顯示,DFA顯著超越了現有蒸餾方法。
15
論文題目:TP-LSD: Tri-Points Based Line Segment Detector
關鍵詞:直線段檢測、一階段、Tri-Points表示法
對復雜環境進行高效描述是計算機視覺感知的一個重要問題。考慮到人工環境里存在很多平面,因此其相關直線段(line segment)的表示就能夠很好地助力系統對環境結構的編碼,從而為上游計算機視覺應用提供重要信息,如消失關鍵點檢測、3D結構重建、姿態檢測等。
在本工作中,相對于業內大多數使用的二階段檢測器,曠視研究院提出一個更快、更小的一階段直線段檢測器,它基于Tri-Points(TP)表示來編碼直線段,能夠在準確率與當前領先方法匹敵的情況下,實現對圖像的實時檢測,在320×320的輸入上FPS可達到78。
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的再破纪录!ECCV 2020 旷视研究院15篇成果总览的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 交通银行信用卡汇款如何办理 这些渠道和方
- 下一篇: 三星中低端手机拥抱 5G,Galaxy