detectandcompute 图像尺寸太大_基于深度局部特征的图像检索
1.背景
基于CNN的圖像搜索的pipeline:端到端的學到輸入圖片的global feature,然后根據該global feature進行相似性度量。比如人臉識別,person/vehicle re-id等領域,通過metric learning為每張輸入圖片學到一個固定長度的特征,通過常見距離度量方式進行相似度比對,排序即可。
需要注意的是:人臉,人體,車輛可視為細分領域的細粒度檢索,可通過檢測得到region of interest,并且均為剛體,有著良好的關鍵點信息,具有明確語義的關鍵點信息對細粒度特征挖掘幫助極大。但是對于通用的圖像檢索,往往沒有具有明確語義的關鍵點信息,比如商品檢索,地標檢索,cnn很難一把梭了
2.創新點
- 提出一種用于大規模圖像檢索的注意力局部特征表達,稱之為DELF(DEep Local Feature)。這種新型特征是從訓練好的卷積神經網絡中提取出來的,該卷積網絡是在一個地標數據上使用圖像級的標注完成訓練的。
- 為了能夠獲得具有語義信息的、對圖像檢索有利的局部特征,本文還提出一種用于關鍵點提取的注意力機制,該機制和特征表達共享大部分的網絡層。本文的方法可以取代圖像檢索中其他的關鍵點檢測和表達方法,獲得更為準確的特征匹配和幾何驗證。
3.整體框架
3.1 DELF Pipeline
3.1.1 Fine-tune(FT)
我們以在ImageNet上預訓練的ResNet50模型為基礎,通過微調來提升局部表達的判別能力。如圖4(a)所示。
Fine tuning preprocessing:- Center crop to square image- Rescale to 250x250- Randomly crop 224x2243.1.2 Attention-based Key-point Selection(ATT)
不同于人臉,人體,車輛,將提取的特征直接用于圖像檢索,論文設計了一種可以有效提取特征子集的方法。因為直接提取的特征有相當一部分對地標識別任務是沒有用的,會給檢索帶來不好的結果,因此關鍵點檢測對檢索系統來說就顯得尤為重要。論文
在ResNet50 conv4_x的輸出后接入attention模塊,以此來獲得局部特征表達的相關得分。為了能夠訓練該函數,首先使用加權的求和池化對特征進行降維,該權重是attention網絡的預測值。如圖4(b)所示,其中attention網絡用黃色標注。該方法先對整張輸入圖像生成嵌入(embedding),之后訓練softmax地標分類器。
為了可以解決尺寸變化的問題,構建圖像金字塔,對每級分別應用FCN。獲得的特征圖可以看成是局部表達的一種稠密網格。根據感受野可以對特征進行定位,根據卷積層和池化層的參數可以計算特征圖大小。使用感受野中心的像素作為特征的位置,圖像感受野的原始尺寸是291 × 291。使用圖像金字塔之后,我們可以獲得描述不同尺寸的圖像區域的特征。
Attention preprocessing:(7 different scales)- Center crop to square image- Rescale to 900x900- Randomly crop 720x720- Randomly rescale with gamma < 1vs 傳統方法
論文關鍵點挑選是在表達提取之后,這和當前的先進行關鍵點檢測再進行表達的方法有所不同(SIFT 和 LIFT )。傳統的特征點檢測主要是根據低級特征,在成像條件下進行重復性的關鍵點檢測。然而對于高級識別任務如圖像檢索來說,挑選出可以判斷不同目標的關鍵點也很重要。本文提出的方法實現了兩個目的,第一是訓練了一個在特征圖中編碼更高級語義信息的模型,第二是學習挑選適用于分類任務的判別特征。這和最近提出的根據SIFT 匹配收集訓練數據的關鍵點檢測方法LIFT[40]有所不同。盡管我們沒有刻意讓模型去學習位置和視角的變化,但它卻自己主動完成了,這點和基于CNN的圖像分類方法很相似。
3.2 檢索
- 局部特征選取:DELF根據每張圖像的attention score,選取score最大K個的local feature(論文中選用1000個)。
- 特征后處理:分為3步,圖搜索的常規操作了,首先 norm,然后PCA將維度降到40,最后對特征再使用一次 norm,因此每張圖片的特征維度為(1000,40)。
- 檢索:
- 值得一提的是,傳統的直接用CNN提取的global特征只有一個,維度可以控制在256d,通常檢索難度不大,但是基于delf局部特征的檢索,盡管特征維度不高,但特征數量從1升至1000,對特征存儲和實際檢索帶來了更大的挑戰。
- 得到top-k(60)個局部特征,最后采用RANSACA進行幾何驗證,得到inlier 數目,作為最終特分
,對查詢圖像和數據庫圖像提取預先確定數量的局部特征
我們的圖像檢索系統是基于最近鄰搜索方法,該方法是在 KD-tree 和 Product Quantization (PQ) 行近似最近鄰搜索。之后對于從索引中檢索出的前top K(K取60)個局部特征,我們對數據庫中的每張圖像的所有匹配進行了聚合。最后,我們使用RANSAC [ 10 ]進行幾何驗證,用局內點的數量代表檢索圖像的得分。
4.實驗
4.1 Quantitative Results
整個模型(DELF+FT+ATT)與它的變形版本,
DELF-noFT表示提取的特征是基于在ImageNet上預訓練的CNN網絡,而沒有使用微調和attention學習;
DELF+FT表示使用微調但沒有使用attention模型,
DELF-noFT+ATT表示使用attention但沒有使用微調。
如下圖所示,微調和attention模型都有助于性能的提升。特別值得注意的是,使用attention得到的提升比微調得到的多。這表明,從attention層提取的特征,盡管是在ImageNet上預訓練的,但仍然可以挑選出對檢索任務來說最具有判別能力的特征。
4.2 Qualitative Results
提出的attention模型的優點是可以清晰地進行定性說明,而對微調得到的特征進行
5 總結
- 創新點:本文提出的DELF只利用圖像級標簽信息(不需要檢測框等信息)訓練的局部特征提取方法,一次前向傳播就可以完成關鍵點檢測和特征表達,而非傳統的先選擇關鍵點再提取特征。
- 缺點:
- 圖像金字塔,需要7次前向傳播!!!
- 特征量太大了!1000*40d,這對檢索也提出了很大挑戰。
總結
以上是生活随笔為你收集整理的detectandcompute 图像尺寸太大_基于深度局部特征的图像检索的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 顽皮狗致歉,保证让游戏《最后生还者 Pa
- 下一篇: 特斯拉预热充电新品,采用高强度低碳钢材质