ACM MM 2018论文概述:基于多粒度监督的图像语义物体协同标注
作者丨張立石、付程晗、李甲
學(xué)校丨北京航空航天大學(xué)
研究方向丨計算機視覺
介紹
本文概述了被 2018 年 10 月 ACM Multimedia 會議錄用為 Oral 的論文:Collaborative Annotation of Semantic Objects in Images with Multi-granularity Supervisions。在此論文中,北京航空航天大學(xué)碩士研究生張立石、付程晗及其導(dǎo)師李甲,提出了一種基于多粒度監(jiān)督的圖像語義物體協(xié)同標(biāo)注的方法,實現(xiàn)了在幾乎不影響標(biāo)注精確度的前提下,減少了人工標(biāo)注的時間。
■?論文 | Collaborative Annotation of Semantic Objects in Images with Multi-granularity Supervisions
■ 鏈接 | https://www.paperweekly.site/papers/2218
■ 源碼 |?http://dwz.cn/kltHyMz0
■ 主頁 |?http://cvteam.net/
背景
在過去 10 年,大規(guī)模圖像數(shù)據(jù)集大大推動了計算機視覺技術(shù)的發(fā)展。這些數(shù)據(jù)集中的圖片被一個或多個標(biāo)簽標(biāo)注,用于描繪圖片中主要對象的語義類別。在最新的應(yīng)用,比如自動駕駛,機器人導(dǎo)航,視覺問題回答等,僅有圖像級標(biāo)簽是不夠的,這些應(yīng)用需要像素級的語義對象:圖像中的對象是什么、在哪里。
計算機視覺領(lǐng)域?qū)ο袼丶墭?biāo)注語義對象的需求越來越強烈,但是像素級的標(biāo)注是冗余乏味的,需要耗費大量的人力資源。因此,為了將現(xiàn)有圖像級標(biāo)簽的數(shù)據(jù)集轉(zhuǎn)化為像素級標(biāo)注的數(shù)據(jù)集,在標(biāo)注精確度不受影響的前提下,減少人工標(biāo)注時間是很有必要的。
機器和人協(xié)同標(biāo)注的方法已經(jīng)被研究多年,基于協(xié)同策略,現(xiàn)有的方法被分為兩類:Agent-decision 和 Human-decision。
Agent-decision 就是首先標(biāo)注者進行粗略的標(biāo)注,然后機器進行自動修正。這些標(biāo)注結(jié)果很少作為 ground-truth。
Human-decision 就是首先讓機器自動生成粗略的標(biāo)注結(jié)果,然后標(biāo)注者進行手工精細修正,這些標(biāo)注結(jié)果是可以作為 ground-truth。顯然,機器標(biāo)注結(jié)果越好,人工修正的時間越短。但是 Human-decision 方法中缺點就是,機器初始化是靜態(tài)的,需要預(yù)定義或預(yù)先訓(xùn)練參數(shù),這就意味著會反復(fù)的犯同樣的錯誤即使分割同一個語義對象。
因此,很多協(xié)同標(biāo)注方式都是通過利用機器的參與減少人工標(biāo)注時間,但是仍然存在一些問題,鑒于此本文提出了一種智能協(xié)同標(biāo)注工具 Colt:在人機交互標(biāo)注的過程中不斷學(xué)習(xí),使得機器的標(biāo)注越來越好,人工參與越來越少。
思路
本論文的總體思路是首先利用機器自動生成初始標(biāo)注結(jié)果,人工修正,隨著人工修正的結(jié)果越多,機器進行學(xué)習(xí)可以進行機器自動修正,進一步減少人工修正。整體框架圖如圖 1 所示。
▲?圖1. 論文整體框架
機器自動化
機器自動化標(biāo)注主要利用稀疏編碼的思想,對待標(biāo)注圖像進行編碼,編碼長度的大小就意味屬于前景物體的可能性大小,選擇一個閾值分離前背景就能得到自動化標(biāo)注結(jié)果。對于機器初始化標(biāo)注,作者首先構(gòu)建了兩個字典:強字典、弱字典,將這兩個字典作為稀疏編碼圖像的碼表。
字典構(gòu)建
首先根據(jù)每一類圖像的語義標(biāo)簽計算語義相似性,然后根據(jù)圖像特征計算每類圖像之間的視覺相似性,聯(lián)合得到每類圖像之間的總相似性。選擇相似性大于 0.95 的類別作為當(dāng)前類別的稀疏編碼字典。有像素級標(biāo)注圖像類別的特征的作為強字典,沒有像素級標(biāo)注圖像類別特征的作為弱字典。
稀疏編碼
編碼對象是用 MCG 算法對圖像提取出來的排在前 200 的圖像 proposal。由于圖像的分辨率和像素密度很高,作者為減少人工點擊次數(shù),借助超像素塊進行操作。作者把 proposal 編碼長度映射到超像素塊并歸一化得到每個超像素塊的屬于前景的可能性值,選擇大于 0.4 的作為前景,剩下的作為背景,得到機器初始化結(jié)果。
人工修正
根據(jù)機器初始化結(jié)果,標(biāo)注者進行修正:如果前后背景錯誤直接點擊左鍵,如果邊緣分割錯誤,首先點擊右鍵進行分裂成更小的超像素塊,然后點擊左鍵。在人工修正的過程,機器會自動保存點擊超像素塊的 3 鄰域特征用于后續(xù)的機器自動修正。?
機器自動修正
選擇在閾值 0.4 上下 0.15 范圍內(nèi)的超像素塊,用人工修正保存的超像素塊 3 鄰域特征進行稀疏編碼,得到這些超像素塊的編碼長度,歸一化選擇大于 0.95 的超像素塊進行前景背景在初始化基礎(chǔ)上進行反轉(zhuǎn)。得到機器自動修正結(jié)果。隨著人工標(biāo)注的結(jié)果越多,機器能學(xué)的越精確,自動化修正結(jié)果會更好。
實驗
本文選取了 40 個圖像類別。在 ImageNet 數(shù)據(jù)集 1000 類中并且和 MSCOCO 有相同標(biāo)簽的 10 個類別、在 ImageNet 數(shù)據(jù)集 1000 類中并且和MSCOCO有不同標(biāo)簽的 10 個類別、不在 ImageNet 數(shù)據(jù)集 1000 類中并且和 MSCOCO 有相同標(biāo)簽的 10 個類別,不在 ImageNet 數(shù)據(jù)集 1000 類中并且和 MSCOCO 有不同標(biāo)簽的 10個 類別。
作者選擇 10 個年齡在 20-28 周歲之間的標(biāo)注者進行標(biāo)注,每個標(biāo)注者用 LabelMe 進行標(biāo)注 4 個圖像類別。得到 LabelMe 的標(biāo)注結(jié)果,作為本文的 ground-truth。
為了比較作者方法的自動分割結(jié)果,作者和當(dāng)前自動分割處于領(lǐng)先水平的兩個方法:DeepMask 和 SharpMask 進行比較。發(fā)現(xiàn)這兩個方法的結(jié)果都明顯低于 Colt 的初始化結(jié)果。具體結(jié)果見圖 2。
▲?圖2. 自動化對比結(jié)果
為了比較最終標(biāo)注結(jié)果,作者選擇另外 10 個年齡在 20-28 之間的標(biāo)注者用 Colt 進行標(biāo)注,和 LabelMe 的標(biāo)注結(jié)果計算 F-measure,最終平均結(jié)果是 91.21。并比較了 Top5 和 Bottom5,具體結(jié)果見圖 3。標(biāo)注對比結(jié)果見圖 4。
▲?圖3. 最終標(biāo)注結(jié)果
▲?圖4. 標(biāo)注對比結(jié)果
作者還做了機器自動修正結(jié)果對比實驗,發(fā)現(xiàn)機器自動修正是有效的,結(jié)果見圖 5。
▲?圖5. 自動修正結(jié)果
但是 Colt 還是有一些缺陷,尤其是邊界超像素分割得不夠好,失敗的標(biāo)注結(jié)果見圖 6 。
▲?圖6. 失敗結(jié)果
總結(jié)
與當(dāng)前能作為 Ground-Truth 的人工標(biāo)注方法 LabelMe 的標(biāo)注結(jié)果相比,作者標(biāo)注工具 collaborative tool (Colt) 的標(biāo)注結(jié)果 f-measure 值能夠達到 91.21%,同時作者的標(biāo)注工具能節(jié)約 50% 的人工標(biāo)注時間。實驗結(jié)果表明在兼顧精確度的情況下還能大大的減少標(biāo)注時間。
點擊以下標(biāo)題查看更多論文解讀:?
網(wǎng)絡(luò)表示學(xué)習(xí)綜述:一文理解Network Embedding
細水長flow之NICE:流模型的基本概念與實現(xiàn)
如何讓GAN生成更高質(zhì)量圖像?斯坦福給你答案
哈佛NLP組論文解讀:基于隱變量的注意力模型
ACL2018高分論文:混合高斯隱向量文法
COLING 2018最佳論文:序列標(biāo)注經(jīng)典模型復(fù)現(xiàn)
一文解析OpenAI最新流生成模型「Glow」
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢? 答案就是:你不認(rèn)識的人。
總有一些你不認(rèn)識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個,讓知識真正流動起來。
總結(jié)
以上是生活随笔為你收集整理的ACM MM 2018论文概述:基于多粒度监督的图像语义物体协同标注的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 漫谈概率 PCA 和变分自编码器
- 下一篇: 第二届Byte Cup来袭,赢得2万美元