Face++ 论文解读:一种新的行人重识别度量学习方法 | PaperDaily #20
在碎片化閱讀充斥眼球的時代,越來越少的人會去關注每篇論文背后的探索和思考。
在這個欄目里,你會快速 get 每篇精選論文的亮點和痛點,時刻緊跟 AI 前沿成果。
點擊本文底部的「閱讀原文」即刻加入社區,查看更多最新論文推薦。
這是 PaperDaily 的第?20?篇文章本期推薦的論文筆記來自 PaperWeekly 社區用戶 @LUOHAO,他也是這篇論文的作者之一。本文提出了一種新的度量學習方法 Margin sample mining loss, MSML。
Triplet loss 是一種非常常用的度量學習方法,Quadruplet loss 和 Triplet hard batch loss(TriHard loss)是它的兩個改進版本,而 MSML 是吸收了 Quadruplet loss 和 TriHard loss 兩個優點的綜合體。
實驗證明 MSML 能夠在 person ReID 的公開數據集上取得很好的結果。 這個方法不止可以應用于 person ReID,而是一種通用的度量學習方法,進一步可以延伸到圖像檢索等相關的各個領域。
如果你對本文工作感興趣,點擊底部的閱讀原文即可查看原論文。
關于作者:羅浩,浙江大學博士研究生,研究方向為計算機視覺和深度學習,現為曠視科技(Face++)research intern。
■?論文 | Margin Sample Mining Loss: A Deep Learning Based Method for Person Re-identification
■ 鏈接 | https://www.paperweekly.site/papers/1069
■ 作者 | LUOHAO
1. 摘要
Person re-identification (ReID) is an important task in computer vision. Recently, deep learning with a metric learning loss has become a common framework for ReID. In this paper, we propose a new metric learning loss with hard sample mining called margin smaple mining loss (MSML) which can achieve better accuracy compared with other metric learning losses, such as triplet loss. In experiments, our proposed methods outperforms most of the state-ofthe-art algorithms on Market1501, MARS, CUHK03 and CUHK-SYSU.?
行人重識別是一個計算機視覺領域非常重要的一個任務?;诙攘繉W習方法的深度學習技術如今成為了 ReID 的主流方法。在本論文中,我們提出了一種新的引入難樣本采樣的度量學習方法,這種方法叫做 MSML。實驗表明,我們提出的方法擊敗了目前大多數的方法,在 Market1501,MARS,CUHK03 和 CUHK-SYSU 數據集上取得了 state-of-the-arts 的結果。
2. 方法
Triplet loss 是一種非常常用的度量學習方法,而 Quadruplet loss 和 TriHard loss 是它的兩個改進版本。Quadruplet loss 相對于 Triplet loss 考慮了正負樣本對之間的絕對距離,而 TriHard loss 則是引入了 hard sample mining 的思想,MSML 則吸收了這兩個優點。?
度量學習的目標是學習一個函數,使得空間上語義相似度反映在空間的距離上。?
通常我們需要定義一個距離度量函數來表示嵌入空間(Embedding space)的距離,而這個距離也用來重識別行人圖片。?
在國內外研究現狀里面介紹的三元組損失、四元組損失和 TriHard 損失都是典型度量學習方法。給定一個三元組 {a,p,n},三元組損失表示為:
三元組損失只考慮了正負樣本對之間的相對距離。為了引入正負樣本對之間的絕對距離,四元組損失加入一張負樣本組成了四元組 {a,p,n1,n2},而四元組損失也定義為:
假如我們忽視參數 α 和 β 的影響,我們可以用一種更加通用的形式表示四元組損失:
其中 m 和 n 是一對負樣本對,m 和 a 既可以是一對正樣本對也可以是一對負樣本對。但是直接使用 Lq′ 并不能取得很好的結果,因為隨著數據量的上升,可能四元組組合數量急劇上升。絕大部分樣本對都是比較簡單的,這限制了模型的性能。
為了解決這個問題,我們采用了 TriHard 損失使用的難樣本采樣思想。TriHard 損失是在一個 batch 里面計算三元組損失對于 batch 中的每一張圖片 a,我們可以挑選一個最難的正樣本和一個最難的負樣本和 a 組成一個三元組。我們定義和 a 為相同 ID 的圖片集為 A,剩下不同 ID 的圖片圖片集為 B,則 TriHard 損失表示為:
而 TriHard 損失同樣只考慮了正負樣本對之間的相對距離,而沒有考慮它們之間的絕對距離。于是我們把這種難樣本采樣的思想引入到 Lq′,可以得到:
其中?a,p,m,n 均是 batch 中的圖片,a,p 是 batch 中最不像的正樣本對,m,n 是batch 中最像的負樣本對,a,m 皆可以是正樣本對也可以是負樣本對。
概括而言 ,TriHard 損失是針對 batch 中的每一張圖片都挑選了一個三元組,而 MSML 損失只挑選出最難的一個正樣本對和最難的一個負樣本對計算損失。所以,MSML 是比 TriHard 更難的一種難樣本采樣。
此外,可以看作是正樣本對距離的上界,看作是負樣本對的下界。MSML 是為了把正負樣本對的邊界給推開,因此命名為邊界樣本挖掘損失。
MSML 只用了兩對樣本對計算損失,看上去浪費了很多訓練數據。但是這兩對樣本對是根據整個 batch 的結果挑選出來了,所以 batch 中的其他圖片也間接影響了最終的損失。并且隨著訓練周期的增加,幾乎所有的數據都會參與損失的計算。
總的概括,MSML 是同時兼顧相對距離和絕對距離并引入了難樣本采樣思想的度量學習方法。
如果用一張圖概括這幾個 loss 之間的關系的話,可以表示為下圖。
3. 結果
論文里在 Market1501,MARS,CUHK03 和 CUHK-SYSU 數據集都進行了對比實驗,為了減少實驗數量,并沒有在每個數據集上都做一次實驗,而是用所有數據集的訓練集訓練一個模型。
為了增加結果的可信度,使用了 Resnet50、inception-v2、Resnet-Xecption 三個在 ImageNet 上 pre-trained 的網絡作為 base model,和 classification、Triplet loss、Quadruplet loss、TriHard loss 四個損失函數進行了對比。結果如下表,可以看出 MSML 的結果還是很不錯的。
簡評
MSML 是一種新的度量學習方法,吸收了目前已有的一些度量學習方法的優點,能過進一步提升模型的泛化能力。本文在行人重識別問題上發表了這個損失函數,但是這是一個在圖像檢索領域可以通用的度量學習方法。
本文由 AI 學術社區 PaperWeekly 精選推薦,社區目前已覆蓋自然語言處理、計算機視覺、人工智能、機器學習、數據挖掘和信息檢索等研究方向,點擊「閱讀原文」即刻加入社區!
? ? ? ? ??
?我是彩蛋
?解鎖新功能:熱門職位推薦!
PaperWeekly小程序升級啦
今日arXiv√猜你喜歡√熱門職位√
找全職找實習都不是問題
?
?解鎖方式?
1. 識別下方二維碼打開小程序
2. 用PaperWeekly社區賬號進行登陸
3. 登陸后即可解鎖所有功能
?職位發布?
請添加小助手微信(pwbot01)進行咨詢
?
長按識別二維碼,使用小程序
*點擊閱讀原文即可注冊
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 查看原論文
總結
以上是生活随笔為你收集整理的Face++ 论文解读:一种新的行人重识别度量学习方法 | PaperDaily #20的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 本期最新 9 篇论文,帮你完美解决「读什
- 下一篇: CVPR2017有哪些值得读的Image