NeurIPS 2019 | 用于弱监督图像语义分割的新型损失函数
作者丨趙磊
學(xué)校丨北京林業(yè)大學(xué)碩士生
研究方向丨語(yǔ)義分割
本文已經(jīng)被 NeurIPS 2019 (2019 Conference and Workshop on Neural Information Processing Systems) 接收,論文為弱監(jiān)督圖像語(yǔ)義分割方法提出了一種全新的損失函數(shù)——門控全連接條件隨機(jī)場(chǎng)損失即 Gated CRF Loss,通過(guò)與傳統(tǒng)交叉熵?fù)p失函數(shù)結(jié)合,應(yīng)用于重量級(jí)語(yǔ)義分割模型 DeepLab-v3plus 的訓(xùn)練過(guò)程,能夠在 Pascal VOC 2012 數(shù)據(jù)集中將基于點(diǎn)擊和描畫的弱監(jiān)督分割方法精度分別提升至 67.39%和 75.50%,為時(shí)下最佳。論文主要的貢獻(xiàn)在于門控全連接條件隨機(jī)場(chǎng)損失函數(shù)的提出與一系列證明該損失函數(shù)有效的消融實(shí)驗(yàn)的設(shè)計(jì)。背景
目前流行的圖像語(yǔ)義分割模型通常在具有完整標(biāo)注的大型數(shù)據(jù)集上進(jìn)行訓(xùn)練,這樣的數(shù)據(jù)集獲取成本過(guò)高,基于此弱監(jiān)督語(yǔ)義分割方法得到了更多的關(guān)注,并已經(jīng)進(jìn)行了多種不同的嘗試,包括輸入不同類型的弱標(biāo)注(基于粗略描畫的,基于邊界框的,基于粗略點(diǎn)擊繪制的以及基于圖像級(jí)別標(biāo)簽的),這些方法能夠降低標(biāo)注數(shù)據(jù)的成本,但分割精度較差,尤其是分割邊界。?
論文提出使用新型的損失函數(shù):對(duì)于有標(biāo)注的像素點(diǎn)使用交叉熵?fù)p失,對(duì)于無(wú)標(biāo)注的像素點(diǎn)使用門控 CRF 損失。門控 CRF 損失用于弱監(jiān)督分割方法的訓(xùn)練,它能夠:1)消除無(wú)關(guān)像素點(diǎn)的對(duì)當(dāng)前像素點(diǎn)分類的影響;2)更加關(guān)注語(yǔ)義邊界而非區(qū)域之間的語(yǔ)義聯(lián)系;3)簡(jiǎn)化了全連接條件隨機(jī)場(chǎng)與卷積神經(jīng)網(wǎng)絡(luò)的結(jié)合方式;4)不依賴高維濾波器,能夠進(jìn)行端到端訓(xùn)練。
門控CRF損失
用于語(yǔ)義分割的傳統(tǒng)交叉熵?fù)p失用于語(yǔ)義分割卷積神經(jīng)網(wǎng)絡(luò) F 在訓(xùn)練中需要多對(duì)圖像 x- 標(biāo)注 y,最終為每個(gè)像素點(diǎn)從 C 個(gè)類中預(yù)測(cè)其所屬類別。用 N 表示一副圖像中像素點(diǎn)的個(gè)數(shù),其屬于類別 i 的概率為,傳統(tǒng)的用于多分類問(wèn)題的交叉熵?fù)p失函數(shù)形式為,其中 y 是給定標(biāo)簽。
在強(qiáng)監(jiān)督的方法中,幾乎所有的像素點(diǎn)都是帶有標(biāo)注的,從而會(huì)形成一個(gè)密集的分割圖,其中每個(gè)像素點(diǎn);而弱監(jiān)督方法中只有一部分像素點(diǎn)帶有標(biāo)注,會(huì)形成一個(gè)帶有不完整結(jié)果的分割圖,由于無(wú)標(biāo)注的像素點(diǎn)不能為學(xué)習(xí)過(guò)程提供有效信息,損失函數(shù)可以表示為,由于只有部分像素點(diǎn)有標(biāo)注,這個(gè)交叉熵?fù)p失通常被稱為局部交叉熵?fù)p失(partial cross-entropy,pCE)。
弱監(jiān)督標(biāo)注:基于點(diǎn)擊和基于描畫?
典型的弱監(jiān)督方法的動(dòng)機(jī)是通過(guò)更少的像素得到更多的采樣點(diǎn),弱標(biāo)注的 數(shù)據(jù)有多邊形標(biāo)注、描畫標(biāo)注和邊界框標(biāo)注等,其中基于點(diǎn)擊和描畫的標(biāo)注具有以下優(yōu)點(diǎn):1)標(biāo)注區(qū)域更小,帶有標(biāo)注的像素點(diǎn)通常是精準(zhǔn)可信的;2)標(biāo)注過(guò)程更加高效;3)目標(biāo)和其他區(qū)域的類別更好處理。
因此論文關(guān)注基于點(diǎn)擊和描畫的弱標(biāo)注數(shù)據(jù)。但是該論文提出的方法也能應(yīng)用在圖像級(jí)別的弱標(biāo)注數(shù)據(jù),只需把 pCE 損失換成一個(gè)其他合適的損失函數(shù)。基于點(diǎn)擊(click- based)和基于描畫(scribble-based)的弱標(biāo)注數(shù)據(jù)如下圖所示。
門控 CRF 損失函數(shù)用于密集標(biāo)注任務(wù)?
論文希望在不引入任何先驗(yàn)知識(shí)的情況下減小弱監(jiān)督分割方法和強(qiáng)監(jiān)督分割方法的性能差距,而只使用 pCE 損失不能為邊界處提供更多的幫助,由此引入全連接條件長(zhǎng)。首先定義為類別為 i 和 j 的位置 a 和 b 的能量項(xiàng):
表示兩個(gè)點(diǎn)對(duì)的勢(shì),μ 表示通用的類別矩陣,形狀為,后跟,在中,表示權(quán)重,是第 p 個(gè)核的特征向量,計(jì)算如下:
且:
通過(guò)能量項(xiàng)的定義和計(jì)算可以看出,給定特征相似度時(shí)如果兩個(gè)位置的類別不同則能量項(xiàng)值越小,而特征相似性度量是通過(guò)核的權(quán)重和頻帶計(jì)算得到的,也就是說(shuō)一個(gè)核就是一個(gè)五維的顏色相似度。下圖是當(dāng) σRGB=0.1,σXY =12.0 時(shí)部分的計(jì)算結(jié)果:
然后計(jì)算位置 a 和 b 處的預(yù)測(cè)值的勢(shì):
預(yù)測(cè)值的能量項(xiàng)是全連接條件隨機(jī)場(chǎng)的重點(diǎn),門控 CRF 損失對(duì)齊進(jìn)行進(jìn)一步優(yōu)化,總結(jié)如下:
1.?表明能量項(xiàng)的計(jì)算排除了像素點(diǎn)自己給自己打標(biāo)簽的情況。有時(shí)候也想將一些其他位置的無(wú)關(guān)像素點(diǎn)排除,論文定義了一個(gè)和輸入圖像 x 大小相同的源掩碼,其中,即當(dāng)該位置為 1,則可以用于為其他位置計(jì)算勢(shì),為 0 則不可以。
2. 能量和被認(rèn)為是所有位置 a∈[1,N] 能量的累加,這過(guò)于簡(jiǎn)單。弱監(jiān)督任務(wù)中,可能有的點(diǎn)參與到當(dāng)前點(diǎn)的能量和計(jì)算時(shí),會(huì)帶來(lái)負(fù)面影響。為了排除這些點(diǎn)的干擾,論文還設(shè)計(jì)了和輸入圖像 x 尺寸相同的目標(biāo)掩碼,值為 1 表示該像素點(diǎn)可以從其他位置的像素點(diǎn)接收能量,0 則不可以。
3. 對(duì)于一個(gè)固定的位置 a,在假定所有核都是高斯核且特征向量包含位置坐標(biāo)的時(shí)候,a 和 b 的勢(shì)會(huì)隨距離的增大而減小。當(dāng)監(jiān)督信號(hào)十分分散或微弱的時(shí)候,CRF 存在大量冗余計(jì)算,但這些計(jì)算對(duì)于捕獲像素點(diǎn)之間的聯(lián)系又非常關(guān)鍵,論文采用的方式是限制參與對(duì)位置 b 處像素點(diǎn)能量求和的范圍,使其只與鄰近位置 Ω(a) 計(jì)算能量。
為了實(shí)現(xiàn) 1 和 2,論文對(duì) CRF 中能量項(xiàng)計(jì)算的公式進(jìn)行了調(diào)整使其支持門控信息:
其中,即門控函數(shù),其能夠有選擇地進(jìn)行能量計(jì)算 {只有當(dāng) b 是有效的“源”位置且 a 是有效的“目標(biāo)”位置,位置 b 對(duì)于位置 a 的能量才能夠參與計(jì)算}。
為了實(shí)現(xiàn) 3,論文定義了一個(gè)窗口(位置 a 的半徑 r 區(qū)域):
這樣能量和變?yōu)?#xff1a;
最終論文提出的門控 CRF 損失函數(shù)表示為:
這個(gè)損失對(duì)于最終損失的貢獻(xiàn)的權(quán)重為 λ,即:
實(shí)驗(yàn)分析
實(shí)驗(yàn)設(shè)置該論文提出的方法并不依賴特定的架構(gòu),實(shí)驗(yàn)選擇當(dāng)前語(yǔ)義分割效果最好的重量級(jí)語(yǔ)義分割模型 DeepLab-v3plus 作為 baseline。另外本文使用了 Pascal VOC2012 和 CityScapes 兩個(gè)數(shù)據(jù)集,由于缺少基于點(diǎn)擊和基于描畫的弱監(jiān)督數(shù)據(jù),論文利用已有方法進(jìn)行生成,用于模型訓(xùn)練和實(shí)驗(yàn)結(jié)果比對(duì),并且采用平均交并比(mIoU)作為評(píng)價(jià)指標(biāo)。
下列圖表結(jié)果中,鼠標(biāo)標(biāo)志表示訓(xùn)練數(shù)據(jù)是基于點(diǎn)擊的弱監(jiān)督數(shù)據(jù),線條標(biāo)志表示訓(xùn)練數(shù)據(jù)是基于描畫的弱監(jiān)督數(shù)據(jù),黑色實(shí)心方框表示訓(xùn)練數(shù)據(jù)是全監(jiān)督數(shù)據(jù)。
分割結(jié)果可視化
如下圖所示,從左到右前兩列為原始圖像和真實(shí)標(biāo)注,后三列分別為全監(jiān)督方法的分割結(jié)果,以及采用新型損失時(shí),基于描畫標(biāo)注數(shù)據(jù)和基于點(diǎn)擊標(biāo)注數(shù)據(jù)的分割結(jié)果。定量分析
在 VOC 數(shù)據(jù)集上與 SOTA 弱監(jiān)督方法的精度進(jìn)行對(duì)比,結(jié)果如下表所示,可以看到。在弱監(jiān)督方法中不論是基于點(diǎn)擊的弱監(jiān)標(biāo)注數(shù)據(jù)還是基于描畫的弱標(biāo)注數(shù)據(jù),損失函數(shù)結(jié)合門控 CRF 損失都會(huì)大幅提升實(shí)驗(yàn)精度。具體地,分別將弱監(jiān)督下最好的平均交并比提升至 67.39%和 75.50%。
消融實(shí)驗(yàn)
源掩碼和目標(biāo)掩碼的影響?
下表中第一列表示損失函數(shù)只采用局部交叉熵?fù)p失(pCE),后三列都是門控 CRF 損失與局部交叉熵?fù)p失的結(jié)合,一次為不激活源掩碼和目標(biāo)掩碼,只激活源掩碼,同時(shí)激活源掩碼和目標(biāo)掩碼。
可以看到,門控 CRF 損失和源掩碼的激活能夠有效提升弱監(jiān)督數(shù)據(jù)的精度,但是激活目標(biāo)掩碼后,VOC 數(shù)據(jù)集上的精度反而有所降低,這是因?yàn)?VOC 數(shù)據(jù)集中一幅圖中的目標(biāo)實(shí)例較少,相應(yīng)的弱監(jiān)督數(shù)據(jù)質(zhì)量也較低,激活目標(biāo)掩碼弱化門控 CRF 損失必然會(huì)導(dǎo)致精度的下降。
而在 CityScapes 數(shù)據(jù)集中每幅圖通常包含多個(gè)目標(biāo)實(shí)例,能夠?yàn)?pCE 損失提供了有效支持,激活目標(biāo)掩碼會(huì)提升最終結(jié)果。由此論文指出,源掩碼是必須加入的,而目標(biāo)掩碼需要視數(shù)據(jù)集情況決定是否激活。
小有標(biāo)注像素輸入規(guī)模對(duì)最終結(jié)果的影響?
該實(shí)驗(yàn)結(jié)果來(lái)自基于點(diǎn)擊的弱監(jiān)督數(shù)據(jù),[1×1] 和 [3×3] 分別表示基于點(diǎn)擊的數(shù)據(jù)中每次點(diǎn)擊的像素點(diǎn)數(shù)為 1 和 9,結(jié)果如下表所示:
可以看到只使用交叉熵?fù)p失時(shí),VOC 數(shù)據(jù)集中每次點(diǎn)擊的像素點(diǎn)多比較有利,而結(jié)合門控 CRF 損失后,則消除了兩者的精度差距,表明結(jié)合門控 CRF 損失后對(duì)弱監(jiān)督的數(shù)據(jù)更加有利。而在 CityScapes 數(shù)據(jù)集中,實(shí)驗(yàn)結(jié)果均為明顯變化,可能是由于該數(shù)據(jù)集中包含更多的小尺度目標(biāo),擴(kuò)大每次點(diǎn)擊繪制的像素點(diǎn)數(shù)可能會(huì)使當(dāng)前目標(biāo)覆蓋其他目標(biāo)從而影響精度。
不同鄰域范圍對(duì)實(shí)驗(yàn)精度的影響?
如下表所示,精度與并不隨鄰域范圍增加而一直增大,取 6 時(shí)效果最好。
不同損失權(quán)重的影響?
下表為不同權(quán)重的門控 CRF 損失對(duì)實(shí)驗(yàn)結(jié)果的影響。可以看到對(duì)于弱監(jiān)督數(shù)據(jù),取 0.1 時(shí)得到最好精度效果,對(duì)于全監(jiān)督,取 0.15 時(shí)得到最好精度效果。而且隨著權(quán)重的變化,實(shí)驗(yàn)精度變化不大。
總結(jié)
該論文提出了一種簡(jiǎn)單卻有效的損失函數(shù)用于弱監(jiān)督圖像語(yǔ)義分割模型的訓(xùn)練,使用標(biāo)準(zhǔn)交叉熵?fù)p失用于有標(biāo)注像素點(diǎn),使用新型的門控 CRF 損失用于無(wú)標(biāo)注像素點(diǎn)。整個(gè)方法不需要額外的預(yù)處理或后處理,能夠端到端地訓(xùn)練。方法在基于點(diǎn)擊和基于描畫的弱監(jiān)督標(biāo)注數(shù)據(jù)中都取得了 SOTA 效果。?
綜合來(lái)看,該方法是將全連接條件隨機(jī)場(chǎng)用作損失函數(shù)的又一種嘗試,并且在常用的弱標(biāo)注數(shù)據(jù)上取得了較好的效果。通過(guò)大量的消融實(shí)驗(yàn),為其他具體的弱監(jiān)督任務(wù)的數(shù)據(jù)標(biāo)注和損失函數(shù)選用指明了新的方向,期待代碼盡快開源。
點(diǎn)擊以下標(biāo)題查看更多往期內(nèi)容:?
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來(lái)。
??來(lái)稿標(biāo)準(zhǔn):
? 稿件確系個(gè)人原創(chuàng)作品,來(lái)稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會(huì)添加“原創(chuàng)”標(biāo)志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請(qǐng)單獨(dú)在附件中發(fā)送?
? 請(qǐng)留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通
?
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁(yè)搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點(diǎn)擊 |?閱讀原文?| 下載論文
與50位技術(shù)專家面對(duì)面20年技術(shù)見證,附贈(zèng)技術(shù)全景圖總結(jié)
以上是生活随笔為你收集整理的NeurIPS 2019 | 用于弱监督图像语义分割的新型损失函数的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 管理员限制用u盘怎么办 U盘受管制怎么办
- 下一篇: 国内免费GPU资源哪里找,让我告诉你最新