跨模态预训练
- 1.ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks[NeurIPS2019]。code
- 2.LXMERT,LXMERT: Learning Cross-Modality Encoder Representations from Transformers[EMNLP2019]。code
- 3.UNITER,UNITER: UNiversal Image-TExt Representation Learning[ECCV2020]。code
- 4.VisualBERT ,VisualBERT A Simple and Performant Baseline for Vision and Language[ACL2020]。code
- 5.VL-BERT,VL-BERT: Pre-training of Generic Visual-Linguistic Representations[ICLR2020]。code
- 6.Oscar,Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks[ECCV2020]。code
- 7.ERNIE-ViL,ERNIE-ViL: Knowledge Enhanced Vision-Language Representations through Scene Graphs[AAAI2020]。code
- 8.Unicoder-VL,Unicoder-VL: A Universal Encoder for Vision and Language by Cross-Modal Pre-Training。[AAAI2020]
- 9.ViLT,ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision[ICML2021]code
- 10.UNIMO,UNIMO: Towards Unified-Modal Understanding and Generation via Cross-Modal Contrastive Learning[ACL2021]code
- 11.LightningDOT,LightningDOT: Pre-training Visual-Semantic Embeddings for
Real-Time Image-Text Retrieval[NAACL2021]code - 12.TFS,Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with Transformers[CVPR2021]
- 13.SOHO,Seeing Out of tHe bOx:End-to-End Pre-training for Vision-Language Representation Learning[CVPR2021]code
- 14.VinVL,VinVL: Revisiting Visual Representations in Vision-Language Models[CVPR2021]code
- 15.UC2,UC2: Universal Cross-lingual Cross-modal Vision-and-Language Pre-training[CVPR2021]code
巨模型
- 1.CLIP,Learning Transferable Visual Models From Natural Language Supervision
- 2.WenLan,WenLan: Bridging Vision and Language by Large-Scale Multi-Modal Pre-Training code
- 3.ALIGN,Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision [ICML2021]
- 4.Florence,Florence: A New Foundation Model for Computer Vision
- 5.M6,M6: A Chinese Multimodal Pretrainer
| CLIP | 63 million | 400 million |
| WenLan | 30 million | 1 billion |
| ALIGN | 1.8 billion | |
| Florence | 893 million | 900 million |
| M6 | 100 billion | 60.5 million |
1.ViLBERT
方法
主要思想是輸入文本和Faster RCNN region proposal得到的目標類別和標簽,首先分別mask文本中的詞和圖像中的目標,然后預測mask的詞以及mask的目標特征和類別,最后是跨模態的匹配。
- Masked Multi-modal Modelling,mask 15%的單詞和區域塊,masked區域塊中有90%的值是0,其他保持不變。回歸圖像塊的特征以及語義標簽(求分布)和文本的特征。
- Multi-modal Alignment Prediction,判斷文本和圖像是否是一對。
實驗
- 預訓練,數據集是Conceptual Captions。
- Finetune,數據集VQA, VCR, RefCOCO+, and Flickr30k。
2.LXMERT
方法
主要思想與ViLBERT相似,輸入文本和Faster RCNN region proposal得到的目標類別和標簽,首先分別mask文本中的詞和圖像中的目標,然后預測mask的詞以及mask的目標特征和類別,最后是跨模態的匹配和視覺問答。
- Masked Cross-Modality Language Model,
- Masked Object Prediction,
- Cross-Modality Tasks,
實驗
- 預訓練,數據集是MS COCO, Visual Genome, VQA v2.0, GQA balanced version, and VG-QA這五個數據集的合并。
- Finetune,數據集VQA, GQA, and NLVR2。
3.UNITER
方法
主要思想與ViLBERT相似,輸入文本和Faster RCNN region proposal得到的目標類別和標簽,首先分別mask文本中的詞和圖像中的目標,然后預測mask的詞以及mask的目標特征和類別,最后是文本與圖像以及詞與目標的匹配(單路網絡)。
- Masked Language Modeling,
- Masked Region Modeling,
- ImageText Matching,
- Word-Region Alignment, 最優傳輸方法。
實驗
- 預訓練,數據集是COCO, Visual Genome, Conceptual Captions, and SBU Captions這四個數據集的合并。
- Finetune,數據集VQA, Flickr30K, NLVR2, and RefCOCO+。
4.VisualBERT
方法
這篇文章主要是解釋預訓練模型學到了什么(實際上就是可視化特征圖),輸入文本和Faster RCNN region proposal得到的目標類別和標簽,mask文本的詞并結合文本與視覺特征進行預測,匹配文本與圖像特征(單路網絡)。
- Masked language modeling with the image,
- Sentence-image prediction,
實驗
- 預訓練,數據集是COCO
- Finetune,數據集VQA, VCR, NLVR2, and Flickr30K。
5.VL-BERT
方法
主要思想是將文本的embedding特征和圖像faster RCNN的特征中間用特殊字符分開,形成一個整體的輸入(類似BERT完整的一句話),然后再進行Masked詞預測和Masked目標語義預測(單路)。
- Masked Language Modeling with Visual Clues ,
- Masked RoI Classification with Linguistic Clues ,
實驗
- 預訓練,數據集是Conceptual Captions and BooksCorpus。
- Finetune,數據集VCR, VQA and RefCOCO+。
6.Oscar
主要思想與ViLBERT相似,輸入文本和Faster RCNN region proposal得到的目標類別和標簽,首先分別mask文本中的詞和圖像目標框的語義類別,然后預測mask的詞或者類別,最后是文本與圖像以及詞與目標的匹配(單路)。
- Masked Token Loss,隨機mask 15%的詞或者目標的語義類別進行預測。
- Contrastive Loss,隨機替換50%的語義類別作為負例樣本。
實驗
- 預訓練,數據集是COCO, Conceptual Captions, SBU captions, flicker30k, and GQA這五個數據集的合并。
- Finetune,數據集COCO, NoCaps, VQA, GQA, and NLVR2。
7.ERNIE-ViL
方法
這篇文章嘗試從場景圖生成的角度預訓練模型,首先利用文本生成場景圖,然后分別mask Object,Prediction和Relationship,最后對masked的詞進行預測,主要分為Object Prediction,Attribute Prediction和Relationship Prediction三部分。
- Object Prediction ,
- Attribute Prediction ,
- Relationship Prediction ,
實驗
- 預訓練,數據集是Conceptual Captions and SBU Captions。
- Finetune,數據集VCR,VQA,RefCOCO+ and Flickr30K。
8.Unicoder-VL
方法
這篇文章思路和之前的方法很像,主要分為三部分Masked Language Modeling (MLM), Masked Object Classifation (MOC)和Visual-linguistic Matching (VLM)。
- Masked Language Modeling (MLM),
- Masked Object Classifation (MOC) ,
- Visual-linguistic Matching (VLM) ,
實驗
- 預訓練,數據集是Conceptual Captions and SBU Captions。
- Finetune,數據集MSCOCO和Flickr30K。
9.ViLT
方法
這篇文章主要的特點是使用圖像patch作為圖像的輸入,主要分為三部分Image Text Matching,Masked Language Modeling和Word Patch Alignment。
- Image Text Matching,
- Masked Language Modeling,
- Word Patch Alignment,
實驗
- 預訓練,數據集是Microsoft COCO(MSCOCO),Visual Genome (VG) ,SBU Captions (SBU) 和Google Conceptual Captions (GCC) 。
- Finetune,數據集VQAv2,NLVR2,MSCOCO和Flickr30K。
10.UNIMO
方法
這篇文章任然采用Faster RNN的特征,核心思想是從兩個角度對樣本進行擴充,分別是引入額外的Image Collections和Text Corpus(基于成對的文本和圖像檢索單模態的圖像和文本,將檢索得到的數據作為查詢數據的正例樣本)以及文本的rewriting技術,方法主要分為三部分Cross-Modal Contrastive Learning,Visual Learning和Language Learning。
- Cross-Modal Contrastive Learning,
- Visual Learning,
- Language Learning,
實驗 - 預訓練,數據集是BookWiki,OpenWebText,OpenImages,COCO unlabel,COCO,Visual Genome,Conceptual Captions和SBU Captions。
- Finetune,數據集CoQA,SQuAD,CNN/DailyMail (CNNDM) ,Gigaword,SST-2,MNLI,CoLA datase, STS-B,VQAv2.0, Microsoft COCO Captions,SLNI-VE和Flickr30k。
11.LightningDOT
方法
這篇文章從實時性的角度講故事,核心思想與之前的方法比較相似,主要分為Visual-embedding Fused Masked Language Modeling,Semantic-embedding Fused Masked Region Modeling和Cross-modal Retrieval Objective(finetune時只有這一個loss)。
- Visual-embedding Fused Masked Language Modeling,
- Semantic-embedding Fused Masked Region Modeling,
- Cross-modal Retrieval Objective,
實驗
- 預訓練,數據集是COCO,VG,Conceptual Captions和SBU captions。
- Finetune,數據集Flickr30k和COCO。
12.TFS
方法
核心思想是分兩部進行檢索,與LightningDOT類似。
實驗
- 預訓練,數據集是COCO和Conceptual Captions。
- Finetune,數據集Flickr30k和COCO。
13.SOHO
方法
該方法直接提取image-level的視覺特征(非faster RCNN特征),首先提取圖像的特征,然后構造視覺字典對圖像中的特征進行表示(最近鄰搜索),最后再進行跨模態的融合與預訓練。方法主要分為Cross-Modal Transformer,Masked Language Modeling和Masked Visual Modeling三部分,
- Cross-Modal Transformer,
- Masked Language Modeling,
- Masked Visual Modeling,
實驗
- 預訓練,數據集是MSCOCO和VG。
- Finetune,數據集MSCOCO,Flickr30K,VQA2.0,NLVR2和SNLI-VE。
14.VinVL
方法
這篇文章的核心思想是通過提升faster rcnn模型的性能來提升圖像的視覺表示,進而提升視覺語言任務。
實驗
- 目標檢測數據集COCO,OpenImages,Objects365和Visual Genome。
- 預訓練,數據集COCO,Conceptual Captions,SBU captions,flicker30k,GQA,VQA,VG-QAs和OpenImages。
- Finetune,數據集VQA,GQA,MS COCO,Novel Object Captioning和NLVR2。
15.UC2
方法
這篇文章的核心思想是將英文的caption翻譯成其他語言的caption,然后再進行多語言的學習。
巨模型
1.CLIP
方法
文本分支是ViT(實驗中用了5 ResNets和 3 Vision Transformers),圖像分支是Transformer,最后通過對比度學習進行訓練。
實驗
30個不同的視覺數據集。
2.WenLan
方法
與CLIP比較相似,不同之處在CLIP是在batchsize里面選擇負例樣本(借鑒MoCo),而wenlan是構造一個額外的字典,專門用于擴充負例樣本。
3.ALIGN
方法
方法上沒什么創新,但是證明了語料庫規模的巨大提升可以彌補數據內部存在的噪聲。
4.Florence
方法
圖像主干網絡是CoSwin(Swin的修改版),文本的主干網絡是Roberta,每一個子注意力塊采用協同注意力機制(co-attention),損失函數是掩碼語言預測(masked-languag
e modeling )和基于對比度學習的圖文匹配( image-text matching)。
5.M6
方法
backbone文章中沒有明確介紹,圖像是patch輸入,文本應該是Transformer,訓練時采用了4種預訓練任務,分別是Text Denoising,Language Modeling,Image Captioning和Image-based Text Denoising。
總結