热门的模型跨界,Transformer、GPT做CV任务一文大盘点
作者|陳萍
?來(lái)源|機(jī)器之心
可能大家心里都有一種錯(cuò)誤認(rèn)知,做自然語(yǔ)言處理任務(wù)的模型不能夠用來(lái)進(jìn)行計(jì)算機(jī)視覺(jué)任務(wù)。其實(shí)不然,現(xiàn)階段已出現(xiàn)好多研究,它們通過(guò)算法的改進(jìn),將在 NLP 領(lǐng)域表現(xiàn)良好的模型,如 Transformer、GPT 等進(jìn)行改進(jìn)并應(yīng)用于視覺(jué)任務(wù),不僅實(shí)現(xiàn)了模型跨界,而且取得了不錯(cuò)的性能。
模型跨界效果如何呢?
人工智能的快速發(fā)展已經(jīng)淋漓盡致地體現(xiàn)在我們的日常生活中,從人臉識(shí)別、語(yǔ)音識(shí)別到機(jī)器翻譯等等,無(wú)不展示著 AI 帶來(lái)的便利。已經(jīng)落地的產(chǎn)品層出不窮,其后的算法模型你又了解多少呢?有些模型不僅在自己的領(lǐng)域表現(xiàn)出色,更能跨界出圈。
近幾年,NLP 領(lǐng)域的算法勢(shì)如破竹,不斷取得新突破,CV 領(lǐng)域同樣不斷取得創(chuàng)新。新工具、新算法、新算力等不斷迭代更新,在各自領(lǐng)域大放異彩。如果說(shuō)將 NLP 領(lǐng)域的模型應(yīng)用到 CV 領(lǐng)域,或反之,那效果該如何呢?模型跨界是否可行?
答案是肯定的。下面我們來(lái)盤(pán)點(diǎn)一下模型的跨界、破界表現(xiàn)如何?本文介紹的內(nèi)容包括:
《End-to-End Object Detection with Transformers》:Facebook 將 Transformer 應(yīng)用于目標(biāo)檢測(cè)任務(wù);
《Generative Pretraining from Pixels》:OpenAI 用 GPT-2 做圖像分類(lèi)的嘗試;
《LAMBDANETWORKS: MODELING LONG-RANGE INTERACTIONS WITHOUT ATTENTION》:匿名論文,提出 LambdaNetworks,無(wú)需注意力機(jī)制進(jìn)行視覺(jué)任務(wù),由其衍生出的 LambdaResNets,極大地改善了圖像分類(lèi)模型的速度與準(zhǔn)確性權(quán)衡;
《AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE》:匿名論文,提出 Vision Transformer,將 Transformer 應(yīng)用于圖像識(shí)別。
《Learning Texture Transformer Network for Image Super-Resolution》:來(lái)自上海交大的微軟研究院實(shí)習(xí)生發(fā)表的超分辨率領(lǐng)域的圖像,使用 Transformer 來(lái)解決超分辨率的問(wèn)題。
《Feature Pyramid Transformer》:南理、南洋理工等聯(lián)合發(fā)表的論文,提出特征金字塔 Transformer(FPT),用于視覺(jué)識(shí)別任務(wù)。
論文一:目標(biāo)檢測(cè)新范式,Detection Transformer(DETR)進(jìn)行目標(biāo)檢測(cè)
由于 Transformer 廣泛應(yīng)用于序列數(shù)據(jù)的處理任務(wù),尤其是在語(yǔ)言建模、機(jī)器翻譯等任務(wù)中表現(xiàn)出良好的性能,那么在 NLP 領(lǐng)域表現(xiàn)良好的模型是否可以用到視覺(jué)領(lǐng)域?來(lái)自 Facebook AI 的研究者實(shí)現(xiàn)了這一功能。
該研究把 Transformer 用到了目標(biāo)檢測(cè)任務(wù)中,還取得了媲美 Faster R-CNN 的效果。該研究推出的 Transformer 視覺(jué)版本——Detection Transformer(以下簡(jiǎn)稱(chēng) DETR),可用于目標(biāo)檢測(cè)和全景分割。與之前的目標(biāo)檢測(cè)系統(tǒng)相比,DETR 的架構(gòu)有了根本上的改變,也是第一個(gè)將 Transformer 成功整合為檢測(cè) pipeline 中心構(gòu)建塊的目標(biāo)檢測(cè)框架。基于 Transformer 的端到端目標(biāo)檢測(cè),沒(méi)有 NMS 后處理步驟、真正的沒(méi)有 anchor,且對(duì)標(biāo)超越 Faster RCNN。
論文鏈接:https://arxiv.org/pdf/2005.12872v1.pdf
項(xiàng)目地址:https://github.com/facebookresearch/detr
算法實(shí)現(xiàn):處理目標(biāo)檢測(cè)任務(wù)的全新架構(gòu)
DETR 通過(guò)將常見(jiàn)的 CNN 與 Transformer 架構(gòu)相結(jié)合,直接(并行)預(yù)測(cè)最終的檢測(cè)結(jié)果。在訓(xùn)練階段,二分匹配將唯一的預(yù)測(cè)分配給 GT 框。不匹配的預(yù)測(cè)應(yīng)產(chǎn)生無(wú)對(duì)象(?)類(lèi)預(yù)測(cè)。
DETR 的工作流程可以歸為以下步驟:Backbone -> Transformer -> detect header。
將 DETR 的結(jié)構(gòu)具體化,如下圖所示:
DETR 使用常規(guī)的 CNN 主干來(lái)學(xué)習(xí)輸入圖像的 2D 表示。模型將其展平并在將其傳遞到 transformer 編碼器之前進(jìn)行位置編碼補(bǔ)充。然后,transformer 解碼器將少量固定數(shù)量的學(xué)得位置嵌入作為輸入,稱(chēng)為對(duì)象查詢(xún),并另外參與編碼器的輸出。將解碼器的每個(gè)輸出嵌入傳遞到預(yù)測(cè)檢測(cè)(類(lèi)和邊界框)或無(wú)對(duì)象類(lèi)的共享前饋網(wǎng)絡(luò)(FFN)。
更為具體的 DETR 架構(gòu)如下:
上圖給出了 DETR 中使用 transformer 的詳細(xì)說(shuō)明,并在每個(gè)注意力層傳遞了位置編碼。來(lái)自 CNN 主干的圖像特征通過(guò)了 transformer 編碼器,并將空間位置編碼與添加到查詢(xún)和鍵處的空間編碼一起傳遞。然后,解碼器接收查詢(xún)(最初設(shè)置為零),輸出位置編碼(對(duì)象查詢(xún))和編碼器內(nèi)存,并通過(guò)多個(gè)多頭自注意力和解碼器 - 編碼器注意力來(lái)生成最終的一組預(yù)測(cè)類(lèi)標(biāo)簽和邊界框。此外可以跳過(guò)第一解碼器層中的第一自注意力層。
論文二:iGPT 做圖像分類(lèi),實(shí)現(xiàn) SOTA 性能
在一篇被 ICML 2020 接收的論文中,OpenAI 推出了用于圖像分類(lèi)的模型 iGPT,在圖像上訓(xùn)練 GPT-2(這些圖像被分解為長(zhǎng)像素序列),結(jié)果發(fā)現(xiàn)這種模型能夠理解物體外觀和類(lèi)別等 2D 圖像特征。該模型生成的特征在多個(gè)分類(lèi)數(shù)據(jù)集上( CIFAR-10、CIFAR-100、STL-10 和 ImageNet )實(shí)現(xiàn)了 SOTA 性能,并且獲得了良好的圖像補(bǔ)全效果。
論文鏈接:https://cdn.openai.com/papers/Generative_Pretraining_from_Pixels_V2.pdf
項(xiàng)目地址:https://github.com/openai/image-gpt
算法實(shí)現(xiàn)
OpenAI 研究者提出的方法包含兩個(gè)階段:預(yù)訓(xùn)練和微調(diào)。
在預(yù)訓(xùn)練階段中,研究者探索自回歸目標(biāo)和 BERT 目標(biāo),并使用序列 Transformer 架構(gòu)來(lái)預(yù)測(cè)像素,而非語(yǔ)言 token。
如下圖所示,該方法首先對(duì)原始圖像進(jìn)行預(yù)處理,將其調(diào)整為低分辨率和 1D 序列;然后在自回歸下一像素預(yù)測(cè)或掩碼像素預(yù)測(cè)這兩個(gè)預(yù)訓(xùn)練目標(biāo)中選擇一個(gè);最后,利用 linear probe 或微調(diào),對(duì)這些目標(biāo)學(xué)得的表示進(jìn)行評(píng)估。
方法 1:linear probe,即使用訓(xùn)練好的模型從下游數(shù)據(jù)集圖像中提取特征,然后將 logistic 回歸與標(biāo)簽進(jìn)行擬合;
方法 2:微調(diào),基于下游數(shù)據(jù)集微調(diào)整個(gè)模型。
該研究在 ImageNet 上訓(xùn)練了三個(gè) transformer 模型:iGPT-S、iGPT-M 和 iGPT-L,它們分別包含 76M、455M 和 14 億參數(shù)。此外,研究者還基于 ImageNet 和網(wǎng)絡(luò)圖片的混合數(shù)據(jù)訓(xùn)練了 iGPT-XL,參數(shù)量達(dá) 68 億。
由于使用密集注意力建模長(zhǎng)序列的計(jì)算成本較高,因此該研究選擇使用較低的分辨率:32x32、48x48 和 64x64。
分辨率繼續(xù)降低可以進(jìn)一步減少計(jì)算成本,但是之前研究表明在這種情況下,人類(lèi)的圖像分類(lèi)能力會(huì)急劇下降。因此,該研究受早期顏色顯示調(diào)色板(color display palettes)的啟發(fā),創(chuàng)建了 9-bit 顏色調(diào)色板來(lái)表示像素。使用該調(diào)色板可以得到長(zhǎng)度僅為標(biāo)準(zhǔn) (R, G, B) 1/3 的輸入序列,同時(shí)還能有效編碼顏色。
iGPT 的局限性
盡管該研究表明 iGPT 能夠?qū)W習(xí)強(qiáng)大的圖像特征,但是該方法仍存在很大的局限性。
由于該研究采用的是用于語(yǔ)言任務(wù)的 GPT-2 的通用序列 Transformer,所以需要大量計(jì)算:iGPT-L 在 V100 上大約需要訓(xùn)練 2500 天,而性能類(lèi)似的 MoCo 模型大約只需要訓(xùn)練 70 天。
此外,該研究用 Transformer 對(duì)低分辨率輸入建模,而大多數(shù)自監(jiān)督結(jié)果采用的是基于卷積的編碼器,這些編碼器可以輕松地處理高分辨率輸入。可能需要一種新的架構(gòu),例如與域無(wú)關(guān)的多尺度 Transformer,以實(shí)現(xiàn)進(jìn)一步擴(kuò)展。
考慮到這些局限性,該研究主要是概念證明,證明了基于 Transformer 的大型語(yǔ)言模型在一些新領(lǐng)域中可以學(xué)習(xí)優(yōu)秀的無(wú)監(jiān)督表征,而無(wú)需硬編碼領(lǐng)域的知識(shí)。但是,訓(xùn)練這些模型需要大量的資源成本,而基于卷積神經(jīng)網(wǎng)絡(luò)的方法又具有更高的準(zhǔn)確率,這讓這些表征在視覺(jué)領(lǐng)域中無(wú)法實(shí)際應(yīng)用。
最后,生成模型可能會(huì)呈現(xiàn)出偏差,這些偏差是模型訓(xùn)練所用的數(shù)據(jù)造成的。這些偏差中有許多都是有用的,例如假設(shè)棕色和綠色像素的部分代表葉子上覆蓋的分支,然后用這種偏差繼續(xù)生成圖像。
論文三:LambdaNetworks:無(wú)需注意力機(jī)制,應(yīng)用于視覺(jué)任務(wù)
Transformer 功能強(qiáng)大,但由于其注意力機(jī)制對(duì)內(nèi)存的需求是輸入圖像的二次方,在圖像識(shí)別上會(huì)存在計(jì)算效率過(guò)低的挑戰(zhàn)。不僅如此,圖像的 head 個(gè)數(shù)也會(huì)帶來(lái)很大的顯存消耗。針對(duì)這一問(wèn)題,出現(xiàn)了一種新的網(wǎng)絡(luò) LambdaNetworks,無(wú)需建立昂貴的注意力即可捕捉長(zhǎng)距離交互,為捕獲模型輸入和上下文信息的結(jié)構(gòu)化集合之間的長(zhǎng)期交互提供了一個(gè)通用框架。由其衍生出的 LambdaResNets,極大地改善了圖像分類(lèi)模型的速度與準(zhǔn)確性權(quán)衡。
LambdaNetworks 通過(guò)將可用上下文轉(zhuǎn)換為線性函數(shù)(lambda 函數(shù)),并將這些線性函數(shù)分別應(yīng)用于每個(gè)輸入來(lái)捕獲此類(lèi)交互。用 Lambda 層來(lái)替代注意力機(jī)制。注意力機(jī)制在輸入和上下文元素之間定義了一個(gè)相似核,而 Lambda 層則是將上下文信息總結(jié)為一個(gè)固定大小的線性函數(shù),從而繞過(guò)了需要大量記憶的注意映射。
在 ImageNet 分類(lèi)、COCO 目標(biāo)檢測(cè)和實(shí)例分割三方面的對(duì)照實(shí)驗(yàn)表明,LambdaNetwork 顯著優(yōu)于基于卷積和注意力的同類(lèi)方法,并且計(jì)算效率更高、運(yùn)行速度更快。
最后,提出了 LambdaResNets,它顯著改善了圖像分類(lèi)模型的速度——準(zhǔn)確性權(quán)衡。LambdaResNets 在實(shí)現(xiàn) SOTA ImageNet 準(zhǔn)確性的同時(shí),運(yùn)行速度是 EfficientNets 的 4.5 倍左右。
論文鏈接:https://openreview.net/pdf?id=xTJEN-ggl1b
GitHub 鏈接:https://github.com/lucidrains/lambda-networks
算法實(shí)現(xiàn)
Lambda 層與注意力機(jī)制對(duì)比如下圖所示:
研究者證明了 lambda 層的通用性,展示了它們的實(shí)現(xiàn)可以被用來(lái)捕獲全局、局部或掩模上下文中基于內(nèi)容和位置的交互。利用 lambda 生成的神經(jīng)網(wǎng)絡(luò) LambdaNetworks 計(jì)算效率很高,能夠以很小的內(nèi)存成本建模長(zhǎng)程依賴(lài),因而可用于高分辨率圖像等大型結(jié)構(gòu)化輸入。由此產(chǎn)生的神經(jīng)網(wǎng)絡(luò)體系架構(gòu) LambdaNetworks 具有高效的計(jì)算能力,并且可以通過(guò)直接調(diào)用現(xiàn)代神經(jīng)網(wǎng)絡(luò)庫(kù)中可用的操作來(lái)輕松實(shí)現(xiàn)。
下表 1 給出了 lambda 層的超參數(shù)、參數(shù)等:
LAMBDA 層將上下文轉(zhuǎn)換為線性函數(shù)需要以下四步:
1. 生成上下文 lambda 函數(shù):Lambda Layer 將上下文轉(zhuǎn)換為線性函數(shù),生成 Contextual Lambda Function。lambda 層首先通過(guò)線性映射上下文來(lái)計(jì)算鍵和值,并且通過(guò) softmax 操作跨上下文位置對(duì)鍵進(jìn)行標(biāo)準(zhǔn)化,進(jìn)而得到生成標(biāo)準(zhǔn)化的鍵 K^-。它的實(shí)現(xiàn)可以被看作是一種函數(shù)傳遞形式,每個(gè)上下文元素貢獻(xiàn)一個(gè)內(nèi)容函數(shù)??和一個(gè)位置函數(shù)。函數(shù)是通過(guò)加和 context 得到的:
式中 content lambda 為λ^c ,position lambda 為λ_n^p ;λ^c 是對(duì)上下文元素的排列不變性,在所有查詢(xún)位置 n 之間共享,并編碼如何僅基于上下文內(nèi)容對(duì) q_n 進(jìn)行轉(zhuǎn)換;對(duì)比之下,λ_n^p 編碼如何基于內(nèi)容 c_m 和位置 (n,m) 轉(zhuǎn)換查詢(xún)內(nèi)容 q_n ,從而支持對(duì)此類(lèi)圖像進(jìn)行結(jié)構(gòu)化的建模輸入。
2. 將 lambda 應(yīng)用于查詢(xún),將輸入 x_n 轉(zhuǎn)換為查詢(xún)?,得到 lambda 層的輸出為:
3. lambda 解釋,λ_n∈R^|k|x|v | 矩陣的列可以看作是 | k|x|v | 維的上下文特征的固定大小集合。這些上下文特征是根據(jù)上下文的內(nèi)容和結(jié)構(gòu)匯總得出的。利用 lambda 線性函數(shù)動(dòng)態(tài)分配這些上下文特征,以產(chǎn)生?輸出。這個(gè)過(guò)程用來(lái)捕捉密集的內(nèi)容和基于位置的遠(yuǎn)距離互動(dòng),而不產(chǎn)生 Attention Map。
4. 歸一化,該研究的實(shí)驗(yàn)表明,在計(jì)算查詢(xún)和值之后應(yīng)用批歸一化是很有用的。
論文四:Vision Transformer(ViT),將 Transformer 應(yīng)用于圖像識(shí)別
在計(jì)算機(jī)視覺(jué)中,卷積仍然占主導(dǎo)地位。受到 NLP 領(lǐng)域中 Transformer 縮放成功的啟發(fā),該研究嘗試將標(biāo)準(zhǔn) Transformer 直接應(yīng)用于圖像,并盡可能減少修改。為此,將圖像分割成多個(gè)圖像塊(patch),并將這些圖像塊的線性嵌入序列作為 Transformer 的輸入。然后用 NLP 領(lǐng)域中處理 token 的方式處理圖像塊,并以監(jiān)督的方式訓(xùn)練圖像分類(lèi)模型。
研究表明:處理圖像時(shí),對(duì) CNN 的依賴(lài)不是必需的,當(dāng)直接應(yīng)用于圖像塊序列時(shí),transformer 也能很好地執(zhí)行圖像分類(lèi)任務(wù)。該研究基于大量數(shù)據(jù)進(jìn)行模型預(yù)訓(xùn)練,并遷移至多個(gè)圖像識(shí)別基準(zhǔn)數(shù)據(jù)集(ImageNet、CIFAR-100、VTAB 等),結(jié)果表明 Vision Transformer(ViT)模型可以獲得與當(dāng)前最優(yōu)卷積網(wǎng)絡(luò)相媲美的結(jié)果,而其訓(xùn)練所需的計(jì)算資源大大減少。
該研究提出的 Vision Transformer 在 JFT-300M 數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,在多個(gè)圖像識(shí)別基準(zhǔn)上接近或超過(guò)了 SOTA 水平,在 ImageNet 上達(dá)到了 88.36% 的準(zhǔn)確率,在 ImageNet ReaL 上達(dá)到了 90.77% 的準(zhǔn)確率,在 CIFAR-100 上達(dá)到了 94.55% 的準(zhǔn)確率,在 VTAB 基準(zhǔn) 19 個(gè)任務(wù)中達(dá)到了 77.16% 的準(zhǔn)確率。
論文鏈接:https://openreview.net/pdf?id=YicbFdNTTy
算法實(shí)現(xiàn)
?Vision Transformer 模型的設(shè)計(jì)盡可能的遵循 Transformer 原始設(shè)計(jì)。如下為模型架構(gòu)圖:
標(biāo)準(zhǔn) Transformer 接收 1D 序列的 token 嵌入為輸入。為了處理 2D 圖像,研究者將圖像 x ∈ R^H×W×C 變形為一系列的扁平化 2D patch x_p ∈ R^N×(P^2 ·C),其中 (H, W) 表示原始圖像的分辨率,(P, P) 表示每個(gè)圖像 patch 的分辨率。然后,N = HW/P^2 成為 Vision Transformer 的有效序列長(zhǎng)度。
Vision Transformer 在所有層使用相同的寬度,所以一個(gè)可訓(xùn)練的線性投影將每個(gè)向量化 patch 映射到模型維度 D 上(公式 1),相應(yīng)的輸出被稱(chēng)為 patch 嵌入。
與 BERT 的 [class] token 類(lèi)似,研究者在一系列嵌入 patch (z_0^0 = x_class)之前預(yù)先添加了一個(gè)可學(xué)習(xí)嵌入,它在 Transformer 編碼器(z_0^L )輸出中的狀態(tài)可以作為圖像表示 y(公式 4)。在預(yù)訓(xùn)練和微調(diào)階段,分類(lèi)頭(head)依附于 z_L^0。
位置嵌入被添加到 patch 嵌入中以保留位置信息。研究者嘗試了位置嵌入的不同 2D 感知變體,但與標(biāo)準(zhǔn) 1D 位置嵌入相比并沒(méi)有顯著的增益。所以,編碼器以聯(lián)合嵌入為輸入。
Transformer 編碼器由多個(gè)交互層的多頭自注意力(MSA)和 MLP 塊組成(公式 2、3)。每個(gè)塊之前應(yīng)用 Layernorm(LN),而殘差連接在每個(gè)塊之后應(yīng)用。MLP 包含兩個(gè)呈現(xiàn) GELU 非線性的層。
作為將圖像分割成 patch 的一種替代方案,輸出序列可以通過(guò) ResNet 的中間特征圖來(lái)形成。在這個(gè)混合模型中,patch 嵌入投影(公式 1)被早期階段的 ResNet 取代。ResNet 的其中一個(gè)中間 2D 特征圖被扁平化處理成一個(gè)序列,映射到 Transformer 維度,然后饋入并作為 Transformer 的輸入序列。最后,如上文所述,將分類(lèi)輸入嵌入和位置嵌入添加到 Transformer 輸入中。
Vision Transformer(ViT)模型局限性
在中等規(guī)模的數(shù)據(jù)集(如 ImageNet)上訓(xùn)練時(shí),模型產(chǎn)生的結(jié)果并不理想,準(zhǔn)確率比同等大小的 ResNet 低幾個(gè)百分點(diǎn)。但這個(gè)結(jié)果是可以預(yù)料的:Transformer 缺少一些 CNN 固有的歸納偏置,例如平移同變性和局部性,因此在數(shù)據(jù)量不足的情況下進(jìn)行訓(xùn)練后,Transformer 不能很好地泛化。
論文五:紋理 Transformer(TTSR),用 Transformer 來(lái)實(shí)現(xiàn)端到端的超分辨率任務(wù)
該研究為圖像超分辨率(SR)領(lǐng)域,旨在從低分辨率(LR)圖像中恢復(fù)真實(shí)的紋理。具體而言,該研究提出了一種新穎的用于圖像超分辨率的紋理 Transformer 網(wǎng)絡(luò)(TTSR:Texture Transformer Network for ImageSuper-Resolution ),其中低分辨率 LR 和參考 Ref 圖像分別表示為 Transformer 中的查詢(xún)和關(guān)鍵字。
TTSR 有四個(gè)模塊組成:DNN 的可學(xué)習(xí)紋理提取器;相關(guān)性嵌入模塊;用于紋理傳遞的硬注意力模塊;用于紋理合成的軟注意力模塊。所提出的紋理 Transformer 以跨尺度的方式進(jìn)一步堆疊,從不同級(jí)別(例如從 1x 倍到 4x 倍放大率)恢復(fù)紋理。大量的實(shí)驗(yàn)表明,在定量和定性評(píng)估方面,TTSR 都較最新技術(shù)有了顯著改善。
論文鏈接:
https://openaccess.thecvf.com/content_CVPR_2020/papers/Yang_Learning_Texture_Transformer_Network_for_Image_Super-Resolution_CVPR_2020_paper.pdf
算法介紹
紋理 Transformer 架構(gòu)如下:LR,LR↑和 Ref 分別代表輸入圖像,4 倍 bicubic-upsampled 的輸入圖像和參考圖像。依次對(duì) Ref 應(yīng)用具有相同 4 倍因子的 bicubic 下采樣和上采樣,以獲得與 LR↑domain-consistent 的 Ref↓↑。紋理 Transformer 將 Ref、Ref↓↑、LR↑和主干產(chǎn)生的 LR 特征作為輸入,并輸出同樣大小的特征圖,該特征圖將進(jìn)一步用于生成 HR 預(yù)測(cè)。
紋理 Transformer 包含四個(gè)部分:可學(xué)習(xí)的紋理提取器(LTE)、相關(guān)性嵌入模塊(RE)、用于功能轉(zhuǎn)移的硬注意模塊(HA)和用于特征合成的軟注意模塊(SA)。
跨尺度特征集成:跨尺度特征集成模塊(CSFI)以跨尺度方式堆疊多個(gè)紋理 Transformer 的體系結(jié)構(gòu)。RB 表示一組殘余塊。
堆疊的紋理 Transformer 輸出三個(gè)分辨率級(jí)別(1×,2× 和 4×)的合成特征,以便將不同尺度的紋理特征融合到 LR 圖像中。而跨尺度特征集成模塊(CSFI),以在不同尺度的特征之間交換信息。每次將 LR 功能上采樣到下一個(gè)比例時(shí),都會(huì)應(yīng)用 CSFI 模塊。CSFI 模塊通過(guò)上 / 下采樣來(lái)接收來(lái)自其他級(jí)別的交換特征,隨后是通道尺寸中的級(jí)聯(lián)操作。然后,卷積層會(huì)將要素映射到原始數(shù)量的通道中。
在這樣的設(shè)計(jì)中,從堆疊的紋理 Transformer 傳遞來(lái)的紋理特征可以跨每個(gè)比例進(jìn)行交換,從而獲得更強(qiáng)大的特征表示。
論文六:特征金字塔 Transformer(FPT),用于視覺(jué)識(shí)別任務(wù)
將 Transformer 應(yīng)用于對(duì)特征金字塔 FPN 的改進(jìn)上,本文提出了一種在空間和尺度上完全活躍的特征交互,稱(chēng)為特征金字塔 Transformer(FPT)。它通過(guò)使用三個(gè)專(zhuān)門(mén)設(shè)計(jì)的 Transformer:Self-Transformer(ST)、Grounding Transformer(GT)和 Rendering Transformer(RT),以自上而下和自下而上的交互方式,將任何一個(gè)特征金字塔變換成另一個(gè)同樣大小但具有更豐富上下文的特征金字塔。
FPT 作為一個(gè)通用的視覺(jué)框架,具有合理的計(jì)算開(kāi)銷(xiāo)。最后,本文在實(shí)例級(jí)(即目標(biāo)檢測(cè)和實(shí)例分割)和像素級(jí)分割任務(wù)中進(jìn)行了實(shí)驗(yàn),使用不同的主干和頭部網(wǎng)絡(luò),并觀察到比所有基準(zhǔn)方法和最先進(jìn)的方法一致的改進(jìn)。
大量的實(shí)驗(yàn)表明,FPT 可以極大地改善傳統(tǒng)的檢測(cè) / 分割網(wǎng)絡(luò):1)在 MS-COCO test-dev 數(shù)據(jù)集上,用于框檢測(cè)的百分比增益為 8.5%,用于遮罩實(shí)例的 mask AP 值增益為 6.0%;2)對(duì)于語(yǔ)義分割,分別在 Cityscapes 和 PASCAL VOC 2012 測(cè)試集上的增益分別為 1.6%和 1.2%mIoU;在 ADE20K 和 LIP 驗(yàn)證集上的增益分別為 1.7%和 2.0%mIoU。
論文鏈接:https://arxiv.org/pdf/2007.09451.pdf
項(xiàng)目地址:https://github.com/ZHANGDONG-NJUST/FPT
算法介紹
FPT 的輸入是一個(gè)特征金字塔,而輸出是一個(gè)變換的金字塔,其中每個(gè) level 都是一個(gè)更豐富的特征圖,它編碼了跨空間和尺度的非局部 non-local 交互作用。然后,可以將特征金字塔附加到任何特定任務(wù)的頭部網(wǎng)絡(luò)。FPT 中特征之間的交互采用了 transformer-style。具有整潔的查詢(xún) query、鍵 key 和值 value 操作,在選擇遠(yuǎn)程信息進(jìn)行交互時(shí)非常有效,以適當(dāng)?shù)囊?guī)模進(jìn)行非局部 non-local 交互。另外,就如其他 transformer 模型一樣,使用 TPU 減輕計(jì)算開(kāi)銷(xiāo)。
上圖為 FPT 網(wǎng)絡(luò)的總體架構(gòu)。不同的紋理圖案表示不同的特征 transformer,不同的顏色表示不同比例的特征圖。Conv 表示輸出尺寸為 256 的 3×3 卷積。每個(gè)層次的轉(zhuǎn)換特征圖(紅色、藍(lán)色和綠色)被重新排列到相應(yīng)的地圖大小,然后與原始 map 連接,最后再輸入到卷積層,將它們調(diào)整到原始厚度。
參考鏈接:
https://blog.csdn.net/weixin_42137700/article/details/106487743
https://www.thepaper.cn/newsDetail_forward_9621937
https://zhuanlan.zhihu.com/p/149186888?utm_source=wechat_session
https://blog.csdn.net/sinat_17456165/article/details/106678740
https://yongqi.blog.csdn.net/article/details/107873296
????
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁(yè)搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專(zhuān)欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結(jié)
以上是生活随笔為你收集整理的热门的模型跨界,Transformer、GPT做CV任务一文大盘点的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 土耳其的货币是什么 目前危机不断发酵
- 下一篇: 中信银行信用卡申办