Attention技术应用的最新进展概述
來源:https://zhuanlan.zhihu.com/
p/130388873
作者:一塊小蛋糕
編輯:深度傳送門
本文主要總結(jié)了最新的關(guān)于attention的應(yīng)用文章。
Attention-based Dropout Layer for Weakly Supervised Object Localization(CVPR19)任務(wù):弱監(jiān)督的物體定位:只給定圖像類別的標簽,要求定位出目標所在的區(qū)域。
動機:只給定物體類別的話,網(wǎng)絡(luò)往往只關(guān)注最具有判別性的信息,無法挖掘到整個物體信息。能否設(shè)計一種drop操作,每次迭代時drop最具判別性的信息,強迫網(wǎng)絡(luò)關(guān)注其他的區(qū)域?
做法:代替之前采用CAM得到特征的熱力圖,模型使用(channel-wise pooling)直接生成熱力圖。采用一個設(shè)定的閾值,得到一個drop mask。
Visual Attention Consistency under Image Transforms for Multi-Label Image Classification (CVPR19)任務(wù):多標簽圖像分類問題
動機:數(shù)據(jù)增廣被廣泛用于圖像分類任務(wù),但是數(shù)據(jù)增廣存在缺陷。圖像的一些變換(如旋轉(zhuǎn))應(yīng)該是比較漸層能學(xué)習(xí)到的,但是在一般使用數(shù)據(jù)增廣的策略中,都只是使用最后loss來對這種變換進行學(xué)習(xí)。能否對數(shù)據(jù)增廣學(xué)到的特征圖進行約束。
方法:采用兩分支結(jié)構(gòu)。輸入原始圖像I和轉(zhuǎn)換后的圖像T(I),利用CAM得到兩個特征圖的熱力圖,約束I的熱力圖經(jīng)過T的轉(zhuǎn)換后與T(I)的熱力圖相同。即圖像數(shù)據(jù)增廣后仍然關(guān)注同樣部件的區(qū)域。
AttPool: Towards Hierarchical Feature Representation in Graph Convolutional Networks via Attention Mechanism (ICCV19)任務(wù):定義了一個graph pooling操作。
方法:對于一個有N個節(jié)點的圖(N,D),首先預(yù)測每個節(jié)點的得分(N),然后選擇前K個節(jié)點(K,D),對這K個節(jié)點利用全部的N個節(jié)點進行更新(GCN)。
問題:和之前的文章Self-Attention Graph Pooling思想和做法很像,加了一步更新操作。
Group-wise Deep Object Co-Segmentation with Co-Attention Recurrent Neural Network (ICCV19)任務(wù):圖像組間的共有物體的定位。
做法:設(shè)計了類似GRU的單元,設(shè)定了更新門和重置門,不斷的更新隱單元g,使其融入了所有圖像的信息,然后返回來指導(dǎo)每個圖像的預(yù)測生成。
End-to-End Multi-Task Learning with Attention任務(wù):多任務(wù)學(xué)習(xí)
動機:對于多任務(wù)學(xué)習(xí),應(yīng)該有任務(wù)共享的特征和任務(wù)特定的特征。對于任務(wù)共享的特征可以通過在所有任務(wù)上學(xué)習(xí)得到。那么如何得到任務(wù)特定的特征呢?
方法:對于每個任務(wù)學(xué)習(xí)一個attention,作為特征選擇器,選擇與該任務(wù)相關(guān)的特征。
See More, Know More: Unsupervised Video Object Segmentation with Co-Attention Siamese Networks (CVPR19)任務(wù):無監(jiān)督的視頻物體分割
做法:提出了一個co-attention模塊,將相鄰幀對齊,并將F1(F2)幀的信息整合到F2(F1)上。
問題:用在視頻reID上,相鄰幀進行對齊后,再進行特征整合。
Improving Referring Expression Grounding with Cross-modal Attention-guided Erasing (CVPR19)任務(wù):跨模態(tài)的檢索。給定一個語句描述,檢索出圖像的那個框是與之對應(yīng)的。
動機:圖像與語句之中可能存在多個對應(yīng)關(guān)系,但是現(xiàn)有方法往往會過多的關(guān)注最具有判別性的對應(yīng)關(guān)系。能否有一種機制,迫使網(wǎng)絡(luò)可以關(guān)注更多的對應(yīng)關(guān)系。
做法:擦除最具有判別性的語句或者圖像區(qū)域。
Cross-Modal Self-Attention Network for Referring Image Segmentation任務(wù):跨模態(tài)分割,給定一個語句描述,分割出圖像對應(yīng)的物體區(qū)域。
做法:設(shè)計了一個擴模態(tài)的self attention機制,即對于query,key, value融入了圖像特征和語句特征。
Mask-Guided Attention Network for Occluded Pedestrian Detection (ICCV19)任務(wù):遮擋的行人檢測
做法:遮擋會對行人檢測的性能產(chǎn)生較大的影響。對于特征,生成一個空間mask,mask掉遮擋區(qū)域的特征。利用可見的bounding box監(jiān)督mask的生成。
Looking for the Devil in the Details: Learning Trilinear Attention Sampling Network for Fine-grained Image Recognition (CVPR)動機:如何自適應(yīng)地并且無監(jiān)督的定位出物體各個部件的區(qū)域。每個channel可以響應(yīng)一個特定的物體,但是單個channel的噪聲大。能否整合channel使其可以定位出目標物體
做法:利用self-attention的思想,加強每個channel的特征。X為(C,N)??.此時每個channel可以看做一個空間注意力圖,對應(yīng)一個指定的部件。
往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載機器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印機器學(xué)習(xí)在線手冊深度學(xué)習(xí)筆記專輯AI基礎(chǔ)下載(pdf更新到25集)機器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)專輯本站qq群1003271085,加入微信群請回復(fù)“加群”獲取一折本站知識星球優(yōu)惠券,復(fù)制鏈接直接打開:https://t.zsxq.com/yFQV7am喜歡文章,點個在看總結(jié)
以上是生活随笔為你收集整理的Attention技术应用的最新进展概述的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Transformer温故知新
- 下一篇: 周志华领衔撰写,历时4年,宝箱书问世!文