CVPR 2019 | 旷视研究院提出ML-GCN:基于图卷积网络的多标签图像识别模型
全球計算機視覺三大頂會之一?CVPR?2019?(IEEE?Conference?on?Computer?Visionand?Pattern?Recognition)將于?6?月?16-20在美國洛杉磯如期而至。屆時,曠視首席科學(xué)家、研究院院長孫劍博士將帶領(lǐng)團(tuán)隊遠(yuǎn)赴盛會,助力計算機視覺技術(shù)的交流與落地。在此之前,曠視每周會推出一篇?CVPR'19?接收論文解讀文章。本文是第?5?篇,曠視南京研究院提出了一種基于圖卷積網(wǎng)絡(luò)的多標(biāo)簽識別模型?ML-GCN?以及一種構(gòu)建相關(guān)系數(shù)矩陣的二次加權(quán)方法。
論文名稱:Multi-Label Image Recognition with Graph Convolutional Networks
論文鏈接:https://arxiv.org/abs/1904.03582
導(dǎo)語
介紹
方法
動機
圖卷積網(wǎng)絡(luò)簡介
用于多標(biāo)簽識別的GCN
相關(guān)系數(shù)矩陣
實驗
MS-COCO實驗結(jié)果
VOC 2007實驗結(jié)果
分類器可視化
在圖像檢索上的表現(xiàn)
結(jié)論
參考文獻(xiàn)
往期解讀
?
導(dǎo)語
?
多標(biāo)簽圖像識別(multi-label?image?recognition)任務(wù)的目標(biāo)是預(yù)測一張圖像中出現(xiàn)的多個物體標(biāo)簽,其在搜索引擎、推薦系統(tǒng)中應(yīng)用廣泛,長期以來作為計算機視覺和機器學(xué)習(xí)領(lǐng)域一項基礎(chǔ)研究課題備受學(xué)界業(yè)界關(guān)注。
由于多個相關(guān)物體通常同時出現(xiàn)在一副圖像之中,因此提升識別性能的一個理想方法就是針對多標(biāo)記識別的核心問題,即“如何有效建模標(biāo)記間的協(xié)同關(guān)系”進(jìn)行探索,對標(biāo)簽之間的依賴性進(jìn)行有效建模。?
為獲取和利用這種依賴性,曠視研究院提出一種基于圖卷積網(wǎng)絡(luò)(Graph?Convolutional?Network,GCN)的多標(biāo)簽分類模型。該模型通過?data-driven?方式建立標(biāo)記間有向圖(directed?graph)并由?GCN?將類別標(biāo)記映射(mapping)為對應(yīng)類別分類器,以此建模類別關(guān)系,同時可提升表示學(xué)習(xí)能力。?
此外針對?GCN?中的關(guān)鍵元素?correlation?matrix?進(jìn)行了深入分析和重設(shè)計,使其更勝任多標(biāo)記問題。在兩個多標(biāo)簽圖像識別權(quán)威數(shù)據(jù)集上的實驗結(jié)果顯示,ML-GCN?明顯優(yōu)于目前所有的最佳方法。另外,可視化結(jié)果顯示,模型習(xí)得的分類器還能保持有意義的語義拓?fù)浣Y(jié)構(gòu)。
介紹
多標(biāo)簽圖像識別是計算機視覺領(lǐng)域的一項基本任務(wù),其目標(biāo)是識別圖像中存在的一系列對象。這項技術(shù)可應(yīng)用于醫(yī)學(xué)診斷識別、人類屬性識別和零售識別等諸多領(lǐng)域。相比于多類別圖像分類,多標(biāo)簽任務(wù)的難度更大,因為其輸出空間隨著類別數(shù)目呈指數(shù)增大。
▲?圖1:通過構(gòu)建目標(biāo)標(biāo)簽的有向圖來建模標(biāo)簽依賴性
由于現(xiàn)實世界中很多物體通常會同時出現(xiàn),因此對標(biāo)簽之間的相關(guān)性進(jìn)行建模就成了多標(biāo)簽圖像識別的關(guān)鍵,如圖?1?所示。?
解決多標(biāo)簽識別問題的一個樸素方法是分離地看待各個目標(biāo),通過將多標(biāo)簽問題轉(zhuǎn)換成多組二值分類問題,預(yù)測每個目標(biāo)是否存在。由于深度卷積神經(jīng)網(wǎng)絡(luò)在單標(biāo)簽圖像分類上取得的巨大成功,二值分類的性能已得到極大提升。?
但是這些方法忽視了物體之間復(fù)雜的拓?fù)浣Y(jié)構(gòu),因此在本質(zhì)上有局限性。正是這個缺陷促使研究員尋找能夠獲取并從多個角度探索標(biāo)簽之間相關(guān)性的方法。其中的部分方法基于概率圖模型或循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),可顯式地對標(biāo)簽依賴性進(jìn)行建模。?
另一個研究方向是通過注意力機制來對標(biāo)簽相關(guān)性進(jìn)行隱式建模。該方法考慮的是圖像中被注意區(qū)域之間的關(guān)系(可視為局部相關(guān)性)。不過即便如此,該方法還是忽略了圖像中標(biāo)簽之間的全局相關(guān)性(全局相關(guān)性需要通過單張圖像之外的知識才能推斷出來)。?
為此,曠視研究院提出基于圖卷積網(wǎng)絡(luò)(GCN)的全新模型,即?ML-GCN(Multi-Label?Graph?Convolutional?Network),用于建立多標(biāo)簽之間的相關(guān)性,該方法有其它方法無法具備的擴(kuò)展性和靈活性。?
除了將目標(biāo)分類器視為一組待學(xué)習(xí)的獨立參數(shù)向量外,曠視研究院還提出一種可從標(biāo)簽的先驗特征(如詞嵌入向量)學(xué)習(xí)相互依賴的目標(biāo)分類器方法,它通過一個基于?GCN?的映射函數(shù)來實現(xiàn)。隨后,生成的分類器再被應(yīng)用于由另一個子網(wǎng)絡(luò)生成的圖像特征,以實現(xiàn)端到端訓(xùn)練。?
由于這些從詞嵌入向量到分類器的映射參數(shù)是在所有類別(如圖像標(biāo)簽)之間共享,因此來自所有分類器的梯度都會影響這個基于?GCN?的分類器生成函數(shù)。這可以對標(biāo)簽的相關(guān)性進(jìn)行隱式建模。此外,由于分類器的學(xué)習(xí)涉及到對標(biāo)簽相關(guān)性的建模,因此本文設(shè)計了一個有效的標(biāo)簽相關(guān)系數(shù)矩陣,來引導(dǎo)信息在?GCN?各個節(jié)點之間的傳遞。
?
方法
?
本節(jié)將介紹這一新提出的多標(biāo)簽圖像識別模型?ML-GCN。首先是這一方法的動機,接著是一些圖卷積網(wǎng)絡(luò)初步知識,最后是?ML-GCN?模型以及用于相關(guān)系數(shù)矩陣構(gòu)建的二次加權(quán)方法。?
動機?
如何有效獲取目標(biāo)標(biāo)簽之間的相關(guān)性?如何利用這些標(biāo)簽相關(guān)性提升分類表現(xiàn)?這是多標(biāo)簽圖像識別的兩個重要問題。本文使用圖(graph)來對標(biāo)簽之間的相互依賴關(guān)系進(jìn)行建模。這種方法能夠靈活地獲取標(biāo)簽空間中的拓?fù)浣Y(jié)構(gòu)。?
曠視研究員將圖中的每個節(jié)點(標(biāo)簽)都表示為該標(biāo)簽的詞嵌入向量,并提出使用?GCN?直接將詞嵌入向量映射到一組互相依賴的分類器上,這些分類器進(jìn)一步又可直接應(yīng)用于圖像特征以進(jìn)行分類。基于?GCN?的模型有兩個設(shè)計動機:?
1.?由于從詞嵌入向量到分類器的映射參數(shù)在所有類別中是共享的,所以習(xí)得的分類器能夠在詞嵌入空間中(語義相關(guān)的概念在詞嵌入空間中彼此臨近)保留較弱的語義結(jié)構(gòu)。與此同時,對于可以對標(biāo)簽依賴性進(jìn)行隱式建模的分類器函數(shù),所有分類器的梯度都會對它產(chǎn)生影響。?
2.?基于標(biāo)簽的共現(xiàn)模式,曠視研究員設(shè)計了一個全新的標(biāo)簽相關(guān)系數(shù)矩陣,可顯式地用?GCN?建模標(biāo)簽相關(guān)性,讓節(jié)點的特征在更新時也能從相關(guān)聯(lián)的節(jié)點(標(biāo)簽)吸收信息。?
圖卷積網(wǎng)絡(luò)簡介
?
圖卷積網(wǎng)絡(luò)可用于進(jìn)行半監(jiān)督分類任務(wù),其核心思想是通過節(jié)點之間的信息傳播來更新節(jié)點的表示。?
不同于在一張圖像局部歐氏結(jié)構(gòu)之上進(jìn)行操作的標(biāo)準(zhǔn)卷積方法,GCN?的目標(biāo)是學(xué)習(xí)一個圖?G?的函數(shù)?f(.,?.)。該函數(shù)的輸入是特征描述和相關(guān)系數(shù)矩陣,從而把節(jié)點特征更新為。每個?GCN?層都可以寫成一個非線性函數(shù):
f?(.,?.)?可以表示為:
如此一來,便可以通過堆疊多個?GCN?層來對節(jié)點之間交織的復(fù)雜關(guān)系進(jìn)行建模。?
用于多標(biāo)簽識別的GCN?
GCN?的設(shè)計初衷是半監(jiān)督分類,其節(jié)點層面的輸出結(jié)果是每個節(jié)點的預(yù)測分?jǐn)?shù)。不同的是,在?ML-GCN?中,每個?GCN?節(jié)點的最終輸出都被設(shè)計成與標(biāo)簽相關(guān)的分類器。此外,不同于其它任務(wù),這里的多標(biāo)簽圖像分類任務(wù)沒有提供預(yù)定義的圖結(jié)構(gòu)(即相關(guān)系數(shù)矩陣)。這需要從頭構(gòu)建相關(guān)系數(shù)矩陣。?
圖?2?展示了該方法的整體架構(gòu),它包含兩個主要模塊:圖像特征學(xué)習(xí)模塊和基于?GCN?的分類器學(xué)習(xí)模塊。
▲?圖2:用于多標(biāo)簽圖像識別的ML-GCN模型整體框架
圖像特征學(xué)習(xí):原則上可使用任意基于?CNN?的模型學(xué)習(xí)圖像特征。本文在實驗中使用?ResNet-101?作為實驗基礎(chǔ)模型;然后應(yīng)用全局最大池化獲取圖像層面的特征?x:?
GCN?分類器學(xué)習(xí):通過一個基于?GCN?的映射函數(shù)從標(biāo)簽特征學(xué)習(xí)相互依賴的目標(biāo)分類器。曠視研究員使用堆疊?GCN,其中每個?GCN?層?I?的輸入都取前一層的節(jié)點特征作為輸入,然后輸出新的節(jié)點特征。第一層的輸入是詞嵌入向量,矩陣最后一層的輸出是分類器。?
通過將所學(xué)到的分類器應(yīng)用于圖像特征,得到預(yù)測分?jǐn)?shù):
假設(shè)一張圖像的真實標(biāo)簽是,那么整個網(wǎng)絡(luò)可使用傳統(tǒng)多標(biāo)簽分類的損失函數(shù)來訓(xùn)練,如下:
?
相關(guān)系數(shù)矩陣?
基于相關(guān)系數(shù)矩陣,GCN?可在節(jié)點之間進(jìn)行信息傳遞,因此如何構(gòu)建相關(guān)系數(shù)矩陣?A?就成了GCN?模型中一個非常重要的問題。曠視研究員在本文中以數(shù)據(jù)驅(qū)動的方式構(gòu)建了一個相關(guān)系數(shù)矩陣,換句話說,相關(guān)性可以通過挖掘標(biāo)簽在數(shù)據(jù)集中的共現(xiàn)模式而來定義。?
本文以條件概率的形式(即)對標(biāo)簽的相關(guān)依賴性進(jìn)行了建模。如圖?3?所示,?不等于,因此相關(guān)系數(shù)矩陣不是對稱的。
▲?圖3:兩個標(biāo)簽之間的條件概率示意
為構(gòu)建相關(guān)系數(shù)矩陣,本文首先統(tǒng)計了訓(xùn)練數(shù)據(jù)集中標(biāo)簽對的出現(xiàn)次數(shù),得到矩陣,然后使用這個標(biāo)簽共現(xiàn)矩陣得到條件概率矩陣:
然而,上面這種簡單的相關(guān)性可能有兩個缺陷。首先,一個標(biāo)簽和其它標(biāo)簽的共現(xiàn)模式可能表現(xiàn)為長尾分布,其中某些罕見的共現(xiàn)可能是噪聲;其次,訓(xùn)練和測試中共現(xiàn)的絕對數(shù)可能并不完全一致。因此,本文提出對相關(guān)系數(shù)矩陣進(jìn)行二值化處理。具體而言,研究人員將閾值?T?用于過濾噪聲邊,其中?A?是二值相關(guān)系數(shù)矩陣:
過度平滑問題:根據(jù)?(2)?式可以知道,經(jīng)過?GCN?后,一個節(jié)點的特征是其自身特征和相鄰節(jié)點特征的加權(quán)和。而二值化相關(guān)系數(shù)矩陣的一個直接問題是其可能導(dǎo)致過度平滑。為了緩解這一問題,本文提出以下二次加權(quán)方法:
?
通過這種做法,在更新節(jié)點特征時,節(jié)點本身的權(quán)重是固定的,相關(guān)節(jié)點的權(quán)重則由鄰近分布確定。當(dāng)?p→1?時,不考慮節(jié)點本身的特征;當(dāng)?p→0?時,往往忽略相鄰信息。
?
實驗
多標(biāo)簽圖像識別基準(zhǔn)數(shù)據(jù)集?MS-COCO?和?VOC?2007?上的實驗結(jié)果表明,本文方法實現(xiàn)當(dāng)前最優(yōu)。?
MS-COCO實驗結(jié)果?
對于?ML-GCN,曠視研究員給出了基于二值相關(guān)系數(shù)矩陣與基于二次加權(quán)相關(guān)系數(shù)矩陣兩個版本的結(jié)果,后者的分類表現(xiàn)更好,可以有效緩解上述問題,從而在幾乎所有指標(biāo)上領(lǐng)先其它方法,這證明了新提出的網(wǎng)絡(luò)與二次加權(quán)法的有效性。具體實驗結(jié)果見表?1。
?
▲?表1:在MS-COCO數(shù)據(jù)集上ML-GCN與之前最佳方法的比較
?
VOC?2007實驗結(jié)果?
為公平對比,曠視研究員給出了以?VGG?為基本模型的結(jié)果。由表?2?可知,使用權(quán)重更新方案的?ML-GCN?模型在?mAP?指標(biāo)上得到?94%?的分?jǐn)?shù),高出先前最優(yōu)方法?2%。此外,即使以?VGG?為基礎(chǔ)模型,仍然超出先前最佳水平?0.8%。?
▲?表2:在VOC?2007數(shù)據(jù)集上ML-GCN與之前最佳方法的AP與mAP比較
分類器可視化?
曠視研究員對采用?ML-GCN?模型習(xí)得的分類器與由?vanilla?ResNet(即最后一個全連接層的參數(shù))得到的基本分類器進(jìn)行了可視化分析。結(jié)果如圖?8?所示。可以清楚看到,由新提出的方法學(xué)習(xí)到的分類器能夠維持語義的拓?fù)浣Y(jié)構(gòu)。?
▲?圖8:在MS-COCO上新模型學(xué)習(xí)到的互相依賴型分類器與ResNet的基本分類器的可視化
在圖像檢索上的表現(xiàn)?
進(jìn)一步,曠視研究員考察了新模型在圖像特征上的學(xué)習(xí)能力,通過使用?k-NN?算法執(zhí)行基于內(nèi)容的圖像檢索驗證由新模型習(xí)得的圖像特征的鑒別能力,結(jié)果表明(見圖?7),ML-GCN?不僅能通過有效獲取標(biāo)簽依賴性學(xué)習(xí)更好的分類器,而且還能有助于多標(biāo)簽的圖像特征學(xué)習(xí)。
▲?圖7:使用查詢圖像得到的排名前五的結(jié)果
?
結(jié)論
?
標(biāo)簽相關(guān)性建模是多標(biāo)簽圖像識別的一大關(guān)鍵問題。為建模和利用這種重要信息,曠視研究院提出基于?GCN?的模型來根據(jù)先驗的標(biāo)簽特征(比如詞嵌入向量)學(xué)習(xí)互相依賴的目標(biāo)分類器。?
為了對標(biāo)簽相關(guān)性進(jìn)行顯式建模,文中設(shè)計了一種全新的二次加權(quán)方法,可通過平衡節(jié)點與其相鄰節(jié)點來為?GCN?構(gòu)建一個相關(guān)系數(shù)矩陣,以更新節(jié)點特征,從而有效緩解了妨礙?GCN?性能的兩大問題:過擬合與過度平滑。定量和定性實驗結(jié)果都表明新方法的優(yōu)越性。
?
傳送門
?
歡迎各位同學(xué)加入曠視南京研究院,簡歷可以投遞給南京研究院負(fù)責(zé)人魏秀參博士。
郵箱:weixiushen@megvii.com
?
參考文獻(xiàn)?
[1]?Kaiming?He,?Xiangyu?Zhang,?Shaoqing?Ren,?and?Jian?Sun.?Deep?residual?learning?for?image?recognition.?In?CVPR,?pages?770–778,?2016.?
[2]?Thomas?N.?Kipf,?and?Max?Welling.?Semi-supervised?classi?cation?with?graph?convolutional?networks.?In?ICLR,?pages?1–10,?2017.?
[3]?Chung-Wei?Lee,?Wei?Fang,?Chih-Kuan?Yeh,?and?YuChiang?Frank?Wang.?Multi-label?zero-shot?learning?with?structured?knowledge?graphs.?In?CVPR,?pages?1576–1585,?2018.?
[4]?Xiu-Shen.?Wei,?Quan?Cui,?Lei?Yang,?Peng?Wang,?and?Lingqiao?Liu,?“RPC:?A?large-scale?retail?product?checkout?dataset,”?arXiv?preprint?arXiv:1901.07249,?pages.?1–9,?2019.?
[5]?Zhao-Min?Chen,?Xiu-Shen?Wei,?Xin?Jin,?Yanwen?Guo.?Multi-label?Image?Recognition?with?joint?Class-aware?Map?Disentangling?and?Label?Correlation?Embedding.?In?ICME,?pages?1-6,?2019.
往期解讀:
CVPR?2019?|?曠視提出GIF2Video:首個深度學(xué)習(xí)GIF質(zhì)量提升方法
CVPR?2019?|?曠視Oral論文提出GeoNet:基于測地距離的點云分析深度網(wǎng)絡(luò)
CVPR?2019?|?曠視提出超分辨率新方法Meta-SR:單一模型實現(xiàn)任意縮放因子
CVPR?2019?|?曠視實時語義分割技術(shù)DFANet:高清虛化無需雙攝
點擊以下標(biāo)題查看更多往期內(nèi)容:?
CVPR 2019 | 無監(jiān)督領(lǐng)域特定單圖像去模糊
圖神經(jīng)網(wǎng)絡(luò)綜述:模型與應(yīng)用
近期值得讀的10篇GAN進(jìn)展論文
小樣本學(xué)習(xí)(Few-shot Learning)綜述
萬字綜述之生成對抗網(wǎng)絡(luò)(GAN)
可逆ResNet:極致的暴力美學(xué)
小米拍照黑科技:基于NAS的圖像超分辨率算法
AAAI 2019 | 基于區(qū)域分解集成的目標(biāo)檢測
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢??答案就是:你不認(rèn)識的人。
總有一些你不認(rèn)識的人,知道你想知道的東西。PaperWeekly?或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個,讓知識真正流動起來。
??來稿標(biāo)準(zhǔn):
? 稿件確系個人原創(chuàng)作品,來稿需注明作者個人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請在投稿時提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會添加“原創(chuàng)”標(biāo)志
??投稿郵箱:
??投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發(fā)送?
? 請留下即時聯(lián)系方式(微信或手機),以便我們在編輯發(fā)布時和作者溝通
?
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁搜索「PaperWeekly」
點擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly?是一個推薦、解讀、討論、報道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事?AI?領(lǐng)域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入?PaperWeekly?的交流群里。
▽ 點擊 |?閱讀原文?| 獲取最新論文推薦
總結(jié)
以上是生活随笔為你收集整理的CVPR 2019 | 旷视研究院提出ML-GCN:基于图卷积网络的多标签图像识别模型的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: CVPR 2019 | 基于骨架表达的单
- 下一篇: Github项目推荐 | OI Wiki