CVPR 2019 | 实体零售场景下密集商品的精确探测
作者丨孫明珊
學校丨哈爾濱工業大學(深圳)
研究方向丨目標檢測
研究動機
在購物超市中,商品陳列區中擺放了密集而繁多的商品,它們大多是相同或極其相似的,并且位置十分靠近。當前主流的檢測網絡在這種場景下充滿挑戰,效果并不是很理想。
本文的精確物體檢測就是在這種場景基于主流檢測方法,提出了以下幾個方面的改進:
提出 Soft-IoU 層進行 IoU 的預測;
引入一個基于 EM 算法的高斯混合聚類方法來解決探測重疊的問題;
制作了公開數據集 SKU-110K,并在相關的零售場景數據集中進行訓練和測試,包括 SKU-110K, CARPK 和 PUCPR+。
其與 RetinaNet 的探測效果對比圖如下所示:
其中紅框表示 RetinaNet 效果,藍色表示本文的方法,(c) 和 (d) 是 (a) 和 (b) 的放大圖。
可見在這種場景下探測的主要難點在于怎么確認矩形框的結束和下一個并列矩形框的開始。可見 RetinaNet 中大多數矩形框是重疊的,而本文的方法個個分明,在精確密集檢測中很有優勢。
研究方法
Soft-IoU層預測IoU
在非密集場景中,NMS 可以解決矩形框的重疊。然而,在密集檢測中,多個重疊的邊界框通常會映像多個緊密排列的目標,其中許多目標獲得了高分數。在這種情況下,NMS 不能區分重疊物體之間的縫隙,或者抑制物體的不完整檢測。
為了解決此問題,我們需要針對每個預測框再額外預測一個 IoU,這是由一個在 RPN 后面添加的第三個全連接分支來完成,搭配二值交叉熵。其實,這與 IoU-net 的想法是一樣的,既然零售場景中的密集檢測關注交疊探測那么 IoU 就是一個很好的信息。其中 IoU 的損失函數如下所示:
那么訓練 RPN 的 loss 就由三部分組成,如下式:
基于EM算法的去交疊
我們將原始的單個物體的探測轉化為以一個以探測目標為中心的簇,首先假定來自神經網絡輸出的 N 個矩形框由一系列二維高斯核產生,其中矩形框的中心是高斯核的均值,方差用來衡量矩形框的長寬。將這一系列的高斯核疊加得到了混合高斯模型,其中 IoU 的占比決定了高斯混合模型中的混合系數。模型的概率密度如下式:
這樣就可以將其看作一個熱力圖,將原始的探測問題轉換成了基于熱力圖來判定每個像素與 ground truth 交疊的置信度,每個區域的權重就是高斯核的混合系數,可以由 Soft-IoU 層的預測結果進行衡量。?
不相交的矩形框探測可以采用高斯混合模型進行聚類得到,那么什么是高斯混合聚類方法,此處簡要說明一下:假定我們所有最終的矩形框都是由高斯混合模型生成的,那么我們只要根據數據推出混合模型的概率分布來就可以了,然后混合模型的 K 個組成部分就對應了 K 個簇,也就是 K 個矩形框。
因為我們的問題是需要將交疊的矩形框去重疊之后得到非交疊的部分,又因為聚類之后的簇中心代表的就是去重疊之后的矩形框中心(ground truth 的中心),那么我們的簇中心必定遠小于網絡直接生成的 N 個矩形框,也就是混合模型的高斯核個數 K 遠小于網絡產生的矩形框個數。那么我們需要找到這 K 個高斯核混合而成的概率分布:
用 KL 散度來度量兩個矩形框的相似度:
而我們尋找的這個由 K 個高斯核混合的模型是為了最小化預測框和 ground truth 的 KL 散度,而解決該最小化問題我們采用了 EM 的思想。首先,E 步會將預測出來的每個矩形框對應到與其距離最近的簇中心如下式:
然后,M 步是重新估計模型的參數:
整個流程和 K-means 聚類差不多,聚類簇數目的選定采用層次聚類的結果,還會采用輔助手段進行驗證:依據一張圖片的像素面積去除以一件商品的像素面積,這種方法要求拍攝的距離固定以及商品的像素面積事先測定(感覺有點不智能啊!):
除此之外,還有一個后處理步驟用于去除一些置信度較低但是和其它高斯核交疊率超閾值(也就是距離過近 KL 散度過小)的高斯核,所以實際最后得到的高斯核要小于 K,寫為 K’。
為了獲取最終的探測結果,我們將網絡預測的矩形框中心點落在 K’ 個高斯核標準差以內的所有矩形框求均值作為該探測結果的中心。最后效果如下圖:
構建SKU-110K標準數據集?
基于商場中商品陳列區的目標檢測數據集,主要是針對密集目標見檢測和細粒度目標檢測在零售行業的應用。
實驗內容及分析
該方法是基于 RetinaNet,在 GPU 加速的情況下,添加 Soft-IoU 和 EM-Merger 的速度與基礎模型差不多,具體時間如下表:
其 AP,MAE 和 RMSE 指標結果如下表:
在自己提出的數據集 SKU-110K 上探測效果對比圖如下所示:
除此之外,在 CARPK 和 PUCPR+ 數據集上的 MAE 和 RMSE 的結果如下表所示:
總結
針對實體零售場景下密集商品的探測問題構建了一個相應場景的數據集,并且發現此場景下現有的探測模型具有以下問題:目標的密集性導致大量的邊框由交疊,無法做到個個分明。
針對這個問題提出了兩個方法來改進:增加 Soft-IoU 層來預測每個預測框與 ground truth 的 IoU,并且采用高斯核替代探測框的方式構建基于 EM 的高斯核聚類方法從而篩選重疊的探測框。
點擊以下標題查看更多往期內容:?
全新缺失圖像數據插補框架—CollaGAN
盤點:悉尼科技大學入選CVPR 2019的8篇論文
最新Anchor-Free目標檢測模型—FoveaBox
天秤座R-CNN:全面平衡的目標檢測器
PFLD:簡單高效的實用人臉關鍵點檢測算法
DCGAN到SELF-MOD:GAN的模型架構發展一覽
基于骨架表達的單張圖片三維物體重建方法
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
??來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
?
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 下載論文 & 源碼
總結
以上是生活随笔為你收集整理的CVPR 2019 | 实体零售场景下密集商品的精确探测的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: CVPR 2019 | STGAN: 人
- 下一篇: 近期知识图谱顶会论文推荐,另附超详笔记解