Raki的读paper小记:Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks
Abstract&Introduction&Related Work
- 研究任務
- 語言+視覺模態預訓練任務
- 已有方法和相關工作
- masked data已經成為一種主流
- 面臨挑戰
- 現有的多模態大模型不同模態之間的參數的共享不夠高效
- 創新思路
- 使用Multiway Transformers來通用建模,使用一個統一個結構共享不同下游任務
- 模塊化的網絡同時充分考慮到了模態獨特的編碼和跨模態融合
- 別的大模型往往使用了很多訓練任務,而本文中僅僅使用mask-then-predict來訓練通用的多模態模型
- 將圖片視為外語,把圖片和文本做相同的處理,因此圖片-文本對被視為平行語料來學習模態的對齊
- 僅僅使用了公開數據集
- 實驗結論
- 在目標檢測,語義分割,圖像分類,視覺推理,視覺問答,圖像字幕,多模態抽取上都達到了sota(什么CV殺神?)
在視覺任務上全方位亂殺,可惜沒看到NLP那邊殺起來
BEIT-3: A General-Purpose Multimodal Foundation Model
通過使用共享的多路變壓器網絡對單模態和多模態數據進行masked data建模來進行預訓練。該模型可以轉移到各種視覺和視覺語言下游任務
Backbone Network: Multiway Transformers
將輸入根據不同模態輸入給不同的專家模塊,在實現中,每一層都有一個視覺專家和語言專家,最上面三層有視覺-語言專家為融合模態而設計
Using a pool of modality experts encourages the model to capture more modality-specific information.
使用a pool of 模態專家能促進模型捕捉到更多模態特定的信息
The shared self-attention module learns the alignment between different modalities and enables deep fusion for multimodal (such as vision-language) tasks.
共享的自注意力模塊學習不同模態之間的對齊,使多模態任務深度融合
如圖3所示,統一架構使BEIT-3能夠支持廣泛的下游任務
BEIT-3可以用作各種視覺任務的圖像主干,包括圖像分類、對象檢測、實例分割和語義分割。它還可以作為雙編碼器進行微調,以實現高效的圖像文本檢索,并作為多模式理解和生成任務的融合模型
Pretraining Task: Masked Data Modeling
文本用SentencePiece Tokenizer,圖像用BEiT v2的Tokenizer進行token化
- 文本隨機mask 15%
- 圖像-文本對隨機mask 50%
- 圖片隨機mask 40%
Scaling Up: BEIT-3 Pretraining
Backbone Network
使用ViT-giant作為骨干網絡,40層MultiWay Transformer,總參數量19億
Pretraining Data
使用的預訓練數據
Pretraining Settings
好像越來越接近非超級實驗室能做的訓練資源了
Experiments
實驗是真正的大殺四方,刷了一堆sota
Conclusions
在本文中,我們介紹了BEIT-3,這是一個通用的多模式基礎模型,它在廣泛的視覺和視覺語言基準上實現了最先進的性能。BEIT-3的關鍵思想是圖像可以被建模為外語,因此我們可以以統一的方式對圖像、文本和圖像-文本對進行mask“語言”建模。我們還演示了多路transformer可以有效地建模不同的視覺和視覺語言任務,使其成為通用建模的有趣選項(?)
BEIT-3簡單而且work,是擴展多模態基礎模型的一個有前景的方向。對于未來的工作,我們正在進行多語種BEIT-3的預訓練,并在BEIT-2中包括更多的模式(如音頻),以促進跨語言和跨模式的遷移,并促進跨任務、語言和模式的大規模預訓練的大融合。我們也有興趣通過結合BEIT-3和MetaLM的優勢,為多模式基礎模型提供上下文學習能力
Remark
微軟的超級大作,一舉把視覺的sota狠狠的提高了,并且讓大家再次見識到了基于masked data的超強潛力,現在就差多模態模型在語言上的威力展現了~相信很快就會有,然后下一階段再把語音也加入進來
總結
以上是生活随笔為你收集整理的Raki的读paper小记:Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: OpenVINO示例介绍
- 下一篇: ubuntu18.04安装openvin