一文看尽 CVPR2022 最新 22 篇论文(附打包下载)
CVPR 2022 已經放榜,本次一共有2067篇論文被接收,接收論文數量相比去年增長了24%。由于每年的 CVPR 全部論文以及相關細節都需要等到六月會議召開才會正式公布,在這之前,為了讓大家更快地獲取和學習到計算機視覺前沿技術,極市對CVPR022 最新論文進行追蹤,包括分研究方向的論文、代碼匯總以及論文技術直播分享。
CVPR 2022 論文分方向整理會在極市社區進行更新,項目地址:https://bbs.cvmart.net/articles/6124
以下是最新更新的 CVPR 2022 論文一覽,包括的研究方向有:神經網絡架構設計、異常檢測、三維視覺、姿態估計、圖像修復、模型訓練、視覺語言表征學習、對比學習、深度估計、語義分割、動作檢測、人臉防偽、長尾識別。
打包下載地址:
CVPR 2022 今日論文速遞(22 篇打包下載)涵蓋網絡架構設計、姿態估計、三維視覺、動作檢測、語義分割等方向
神經網絡架構設計
[1] An Image Patch is a Wave: Quantum Inspired Vision MLP(量子啟發的視覺 MLP)
paper:https://arxiv.org/abs/2111.12294
code1:https://github.com/huawei-noah/CV-Backbones/tree/master/wavemlp_pytorch
code2:https://gitee.com/mindspore/models/tree/master/research/cv/wave_mlp
在CV領域的最近工作表明,主要由全連接層堆疊的純 MLP 架構可以實現與 CNN 和 Transformer 競爭的性能。視覺 MLP 的輸入圖像通常被拆分為多個tokens,而現有的 MLP 模型直接將它們以固定的權重聚合,忽略了來自不同圖像的tokens的變化語義信息。為了動態聚合tokens,本文建議將每個token表示為具有振幅和相位兩部分的波函數?;陬惒╰oken表示,本文為視覺任務建立了一種新穎的 Wave-MLP 架構。大量實驗表明,在圖像分類、對象檢測和語義分割等各種視覺任務上,所提出的 Wave-MLP 優于最先進的 MLP 架構。
【2】 A ConvNet for the 2020s
paper:https://arxiv.org/abs/2201.03545
code:https://github.com/facebookresearch/ConvNeXt
詳細解讀:“文藝復興” ConvNet卷土重來,壓過Transformer!FAIR重新設計純卷積新架構
這項工作重新檢查了設計空間并測試了純 ConvNet 所能達到的極限。本文逐漸將標準 ResNet “現代化”為視覺 Transformer 的設計,并在此過程中發現了導致性能差異的幾個關鍵組件。這一探索的結果是一系列純 ConvNet 模型,稱為 ConvNeXt。ConvNeXts 完全由標準 ConvNet 模塊構建,在準確性和可擴展性方面與 Transformer 競爭,實現 87.8% ImageNet top-1 準確率,在 COCO 檢測和 ADE20K 分割方面優于 Swin Transformers,同時保持標準 ConvNet 的簡單性和效率。
【3】Mobile-Former: Bridging MobileNet and Transformer(連接 MobileNet 和 Transformer)
paper:https://arxiv.org/abs/2108.05895
Mobile-Former是一種 MobileNet 和 Transformer 的并行設計,中間有一個雙向橋,這種結構利用了 MobileNet 在本地處理和全局交互中的 Transformer 的優勢,同時可以實現局部和全局特征的雙向融合。
Mobile-Former 中的 Transformer 包含 token 非常少( 6 個或更少),并隨機初始化這些 token 來學習全局先驗,從而降低計算成本。結合提出的輕量級交叉注意力對橋梁進行建模,Mobile-Former 不僅計算效率高,而且具有更強的表示能力。它在低 FLOP 狀態下性能優于 MobileNetV3。此外,通過用 Mobile-Former 替換 DETR 中的主干、編碼器和解碼器來構建的檢測器性能優于 DETR 1.1 AP,但節省了 52% 的計算成本和 36% 的參數。
【4】BatchFormer: Learning to Explore Sample Relationships for Robust Representation Learning(學習探索樣本關系以進行魯棒表征學習)
paper:https://arxiv.org/abs/2203.01522
code:https://github.com/zhihou7/BatchFormer
本文的目的在于讓深度神經網絡本身能夠探索每個mini-batch的樣本關系。具體操作上,本文引入了一個batch transformer模塊,即BatchFormer,將其應用于每個mini-batch的batch維度,實現在訓練期間隱式探索樣本關系。通過這種方法可以實現不同樣本的協作,例如頭類樣本也可以有助于尾類的學習來進行長尾識別。在十個以上的數據集進行了廣泛的實驗,證明在沒有其他多余操作的情況下,BatchFormer在不同的數據稀缺性問題上取得了顯著的改進,包括長尾識別、組合零樣本學習、域泛化和對比學習。
異常檢測
【1】Self-Supervised Predictive Convolutional Attentive Block for Anomaly Detection(用于異常檢測的自監督預測卷積注意力塊)
paper:https://arxiv.org/abs/2111.09099
code:https://github.com/ristea/sspcab
本文提出了一種由掩碼卷積層和通道注意模塊組成的新型模塊 SSPCAB,它可以預測卷積感受野中的掩碼區域。SSPCAB以自監督的方式通過自身的重建損失進行訓練。這一自監督塊是通用的,并且可以很容易地融入到各種最先進的異常檢測方法中。SSPCAB 從一個帶有擴張濾波器的卷積層開始,其中感受野的中心區域被掩碼,生成的激活圖通過通道注意模塊傳遞,同時配置了一個損失,可以最大限度地減少感受野中被掩碼區域的重建誤差。SSPCAB 在圖像和視頻異常檢測任務上都驗證了其對性能的提升。
三維視覺
【1】 CrossPoint: Self-Supervised Cross-Modal Contrastive Learning for 3D Point Cloud Understanding(用于 3D 點云理解的自監督跨模態對比學習)
paper:https://arxiv.org/abs/2203.00680
code:http://github.com/MohamedAfham/CrossPoint
本文提出了 CrossPoint,這是一種簡單的跨模態對比學習方法,用于學習可遷移的 3D 點云表示。它通過最大化點云和不變空間中相應渲染的 2D 圖像之間的一致性來實現對象的 3D-2D 對應,同時鼓勵對點云模態中的變換保持不變。本文的聯合訓練目標結合了模態內和模態之間的特征對應關系,從而以自我監督的方式集成了來自 3D 點云和 2D 圖像模態的豐富學習信號。實驗結果表明,本文的方法在包括 3D 對象分類和分割在內的各種下游任務上優于以前的無監督學習方法。
【2】 A Unified Query-based Paradigm for Point Cloud Understanding(一種基于統一查詢的點云理解范式)
paper:https://arxiv.org/pdf/2203.01252.pdf
本文提出了一種新穎的嵌入查詢范式 (EQ-Paradigm),用于 3D 理解任務,包括檢測、分割和分類。EQ-Paradigm 是一個統一的范式,可以將任何現有的 3D 主干架構與不同的任務頭結合起來。在 EQ-Paradigm 下,輸入首先在嵌入階段以任意特征提取架構進行編碼,該架構獨立于任務和頭。然后,查詢階段使編碼的特征適用于不同的任務頭。這是通過在查詢階段引入中間表示(即 Q 表示)作為嵌入階段和任務頭之間的橋梁來實現的。本文設計了一個新穎的 Q-Net 作為查詢階段網絡。各種 3D 任務的廣泛實驗結果表明,EQ-Paradigm 與 Q-Net 結合是一種通用且有效的管道,它可以實現骨干網和頭部的靈活協作,并進一步提高最先進方法的性能.
【3】 X -Trans2Cap: Cross-Modal Knowledge Transfer using Transformer for 3D Dense Captioning(使用 Transformer 進行 3D 密集字幕的跨模式知識遷移)
paper:https://arxiv.org/pdf/2203.00843.pdf
本文研究了使用 Transformer 進行 3D 密集字幕的跨模式知識轉移,即 X -Trans2Cap。本文提出的 X -Trans2Cap 通過師生框架支持的知識蒸餾有效地提高了單模態 3D 字幕的性能。在實踐中,在訓練階段,教師網絡利用輔助的 2D 模態,通過特征一致性約束引導僅以點云作為輸入的學生網絡。由于精心設計的跨模態特征融合模塊和訓練階段的特征對齊,X-Trans2Cap 輕松獲取嵌入在 2D 圖像中的豐富外觀信息。因此,在推理過程中只能使用點云來生成更忠實的字幕。
【4】 CLIP-NeRF: Text-and-Image Driven Manipulation of Neural Radiance Fields(文本和圖像驅動的神經輻射場操作)
paper:https://arxiv.org/abs/2112.05139
code:https://cassiepython.github.io/clipnerf/
本文提出了 CLIP-NeRF,一種用于神經輻射場 (NeRF) 的多模態 3D 對象操作方法。通過利用最近的對比語言圖像預訓練(CLIP)模型的聯合語言圖像嵌入空間,本文提出了一個統一的框架,允許以用戶友好的方式使用短文本提示或示例圖像操作 NeRF。此外,本文提出了一種逆優化方法,該方法可以將輸入圖像準確地投影到潛在代碼以進行操作,從而能夠對真實圖像進行編輯。
姿態估計
【1】 MixSTE: Seq2seq Mixed Spatio-Temporal Encoder for 3D Human Pose Estimation in Video(用于視頻中 3D 人體姿勢估計的 Seq2seq 混合時空編碼器)
paper:https://arxiv.org/pdf/2203.00859.pdf
本文提出了 MixSTE(混合時空編碼器),它有一個時間變換器塊來分別建模每個關節的時間運動和一個空間變換器塊來學習關節間的空間相關性。這兩個塊交替使用以獲得更好的時空特征編碼。此外,網絡輸出從中心幀擴展到輸入視頻的整個幀,從而提高了輸入和輸出序列之間的連貫性。在三個基準(即 Human3.6M、MPI-INF-3DHP 和 HumanEva)上進行了廣泛的實驗來評估所提出的方法。結果表明,該模型在 Human3.6M 數據集上優于最先進的方法 10.9% P-MPJPE 和 7.6% MPJPE。
【2】 H4D: Human 4D Modeling by Learning Neural Compositional Representation(通過學習神經組合表示進行人體 4D 建模)
paper:https://arxiv.org/pdf/2203.01247.pdf
盡管基于深度學習的 3D 重建取得了令人印象深刻的成果,但對直接學習以詳細幾何對 4D 人體捕捉進行建模的技術的研究較少。這項工作提出了一個新穎的框架,可以通過從廣泛使用的 SMPL 參數模型中利用人體先驗來有效地學習動態人體的緊湊和組合表示。本文提出了一種簡單而有效的線性運動模型來提供粗略和正則化的運動估計,然后使用輔助代碼中編碼的殘差對位姿和幾何細節進行每幀補償。從技術上講,本文引入了新的基于 GRU 的架構來促進學習和提高表示能力。
【3】 Learning Local-Global Contextual Adaptation for Multi-Person Pose Estimation(學習用于多人姿勢估計的局部-全局上下文適應)
paper:https://arxiv.org/pdf/2109.03622.pdf
本文提出了一種多人姿態估計方法,稱為 LOGO-CAP,通過學習人類姿勢的 LOcal-GlObal 上下文適應。具體來說,本文的方法在第一步從小局部窗口中的局部關鍵點擴展圖(KEM)中學習關鍵點吸引力圖(KAM),隨后將其視為以關鍵點為中心的全局熱圖上的動態卷積核,以進行上下文適應,實現準確的多人姿態估計。該方法是端到端可訓練的,在單次前向傳遞中具有近乎實時的推理速度,在自下而上的人體姿態估計的 COCO 關鍵點基準上獲得了最先進的性能。
圖像修復
【1】 Incremental Transformer Structure Enhanced Image Inpainting with Masking Positional Encoding(增量transformer結構增強圖像修復與掩蔽位置編碼)
paper:https://arxiv.org/abs/2203.00867
code:https://github.com/DQiaole/ZITS_inpainting
近年來,圖像修復取得了重大進展。然而,恢復具有生動紋理和合理結構的損壞圖像仍然具有挑戰性。由于卷積神經網絡 (CNN) 的感受野有限,一些特定的方法只能處理常規紋理,而會丟失整體結構。另一方面,基于注意力的模型可以更好地學習結構恢復的遠程依賴性,但它們受到大圖像尺寸推理的大量計算的限制。為了解決這些問題,本文建議利用額外的結構恢復器來逐步促進圖像修復。所提出的模型在固定的低分辨率草圖空間中使用強大的基于注意力的 Transformer 模型來恢復整體圖像結構。
模型訓練
【1】 DN-DETR: Accelerate DETR Training by Introducing Query DeNoising(通過引入查詢去噪加速 DETR 訓練)
paper:https://arxiv.org/abs/2203.01305
code:https://github.com/FengLi-ust/DN-DETR
本文提出了一種新的去噪訓練方法來加速DETR訓練,并加深了對 DETR 類方法的緩慢收斂問題的理解。本文表明,緩慢收斂是由于二部圖匹配的不穩定性導致早期訓練階段的優化目標不一致。為了解決這個問題,除了Hungarian損失之外,本文的方法還向Transformer解碼器中添加了帶有噪聲的ground-truth邊界框,并訓練模型重建原始框,這有效地降低了二分圖匹配難度并導致更快的收斂。該方法是通用的,可以通過添加數十行代碼輕松插入任何類似 DETR 的方法中,以實現顯著的改進。
視覺語言表征學習
【1】 HairCLIP: Design Your Hair by Text and Reference Image(通過文本和參考圖像設計你的頭發)
paper:https://arxiv.org/abs/2112.05142
project:https://github.com/wty-ustc/HairCLIP
頭發編輯是計算機視覺和圖形學中一個有趣且具有挑戰性的問題。許多現有方法需要精心繪制的草圖或蒙版作為編輯的條件輸入,但是這些交互既不簡單也不高效。本文提出了一種新的頭發編輯交互模式,可以根據用戶提供的文本或參考圖像單獨或聯合操作頭發屬性。為此,本文在共享嵌入空間中對圖像和文本條件進行編碼,并通過利用對比語言-圖像預訓練(CLIP)模型強大的圖像文本表示能力提出統一的頭發編輯框架。通過精心設計的網絡結構和損失函數,本文的框架可以以一種解開的方式執行高質量的頭發編輯。
【2】 Vision-Language Pre-Training with Triple Contrastive Learning(三重對比學習的視覺語言預訓練)
paper:https://arxiv.org/abs/2202.10401
code:https://github.com/uta-smile/TCL
視覺語言表示學習通過對比損失(例如 InfoNCE 損失)在很大程度上受益于圖像-文本對齊。這種對齊策略的成功歸功于其最大化圖像與其匹配文本之間的互信息 (MI) 的能力。然而,簡單地執行跨模態對齊 (CMA) 會忽略每個模態中的數據潛力,這可能會導致表示下降。本文通過利用跨模態和模態內自我監督,提出了用于視覺語言預訓練的三重對比學習 (TCL)。除了 CMA,TCL 還引入了模態內對比目標,以在表示學習中提供互補優勢。為了利用來自圖像和文本輸入的本地化和結構信息,TCL 進一步最大化了圖像/文本的局部區域與其全局摘要之間的平均 MI。該工作是第一個考慮多模態表示學習的局部結構信息的工作。
對比學習
【1】 Crafting Better Contrastive Views for Siamese Representation Learning(為連體表示學習制作更好的對比視圖)
paper:https://arxiv.org/pdf/2202.03278.pdf
code:https://github.com/xyupeng/ContrastiveCrop
對于高性能連體表示學習,關鍵之一是設計好的對比對。大多數以前的工作只是簡單地應用隨機采樣來對同一圖像進行不同的裁剪,這忽略了可能降低視圖質量的語義信息。本文提出 ContrastiveCrop,它可以有效地為連體表示學習生成更好的作物。值得注意的是,本文方法仔細考慮了用于對比學習的正對,而額外的訓練開銷可以忽略不計。作為一個即插即用且與框架無關的模塊,ContrastiveCrop 在 CIFAR-10、CIFAR-100、Tiny ImageNet 和 STL-10 上持續將 SimCLR、MoCo、BYOL、SimSiam 的分類精度提高 0.4% ~ 2.0%。
深度估計
【1】 OmniFusion: 360 Monocular Depth Estimation via Geometry-Aware Fusion(通過幾何感知融合進行 360 度單目深度估計)
paper:https://arxiv.org/abs/2203.00838
將深度學習方法應用于全向圖像的一個最大的挑戰是球面失真。在需要結構細節的深度估計等密集回歸任務中,在扭曲的 360 度圖像上使用普通 CNN 層會導致不希望的信息丟失。本文提出了一個 360 度單目深度估計管道OmniFusion,以解決球面失真問題。本文的管道將 360 度圖像轉換為失真較小的透視圖塊(即切線圖像),以通過 CNN 獲得塊狀預測,然后將塊狀結果合并為最終輸出。為了處理補丁預測之間的差異,這是影響合并質量的主要問題,本文提出了一個具有以下關鍵組件的新框架。
語義分割
【1】 Class Re-Activation Maps for Weakly-Supervised Semantic Segmentation(弱監督語義分割的類重新激活圖)
paper:https://arxiv.org/pdf/2203.00962.pdf
code:https://github.com/zhaozhengChen/ReCAM
本文介紹了一種非常簡單高效的方法:使用名為 ReCAM 的 softmax 交叉熵損失 (SCE) 重新激活具有 BCE 的收斂 CAM。給定一張圖像,本文使用 CAM 提取每個類的特征像素,并使用它們與類標簽一起使用 SCE 學習另一個全連接層(在主干之后)。收斂后,本文以與 CAM 中相同的方式提取 ReCAM。由于 SCE 的對比性質,像素響應被分解為不同的類別,因此預期的掩碼模糊性會更小。對 PASCAL VOC 和 MS COCO 的評估表明,ReCAM 不僅可以生成高質量的遮罩,還可以在任何 CAM 變體中以很少的開銷支持即插即用。
動作檢測
【1】 Colar: Effective and Efficient Online Action Detection by Consulting Exemplars(通過咨詢示例進行有效且高效的在線動作檢測)
paper:https://arxiv.org/pdf/2203.01057.pdf
當前的工作模擬歷史依賴關系并預測未來以感知視頻片段中的動作演變并提高檢測準確性。但是,現有的范式忽略了類別級別的建模,對效率沒有給予足夠的重視。本文開發了一種有效的示例咨詢機制,該機制首先測量框架與示例框架之間的相似度,然后根據相似度權重聚合示例特征。這也是一種有效的機制,因為相似性測量和特征聚合都需要有限的計算?;跇永齾f商機制,可以將歷史幀作為樣例來捕捉長期依賴關系,將某個類別中的代表性幀作為樣例來實現類別級建模。
人臉防偽
【1】 Protecting Celebrities with Identity Consistency Transformer(使用身份一致性transformer保護名人)
paper:https://arxiv.org/abs/2203.01318
這項工作提出了身份一致性轉換器,這是一種新穎的人臉偽造檢測方法,專注于高級語義,特別是身份信息,并通過發現內部和外部人臉區域的身份不一致來檢測可疑人臉。身份一致性轉換器包含用于身份一致性確定的一致性損失。本文表明,Identity Consistency Transformer 不僅在不同的數據集上表現出卓越的泛化能力,而且在包括 deepfake 視頻在內的真實應用中發現的各種類型的圖像退化形式上也表現出卓越的泛化能力。當此類信息可用時,身份一致性轉換器可以很容易地通過附加身份信息進行增強,因此它特別適合檢測涉及名人的面部偽造。
長尾識別
【1】 Targeted Supervised Contrastive Learning for Long-Tailed Recognition(用于長尾識別的有針對性的監督對比學習)
paper:https://arxiv.org/pdf/2111.13998.pdf
現實世界的數據通常表現出具有嚴重類不平衡的長尾分布,其中多數類可以主導訓練過程并改變少數類的決策邊界。最近,研究人員研究了監督對比學習在長尾識別方面的潛力,并證明它提供了強大的性能提升。本文表明,雖然有監督的對比學習可以幫助提高性能,但過去的基線受到數據分布不平衡帶來的一致性差的影響。這種差的均勻性表現在來自少數類的樣本在特征空間中的可分離性差。為了解決這個問題,本文提出了有針對性的監督對比學習(TSC),它提高了超球面上特征分布的均勻性。在多個數據集上的實驗表明,TSC 在長尾識別任務上實現了最先進的性能。
總結
以上是生活随笔為你收集整理的一文看尽 CVPR2022 最新 22 篇论文(附打包下载)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 小目标检测、图像分类、图像识别等开源数据
- 下一篇: 如何看待第三代神经网络SNN?详解脉冲神