智慧交通day04-特定目标车辆追踪03:siamese在目标跟踪中的应用-SiamFC(2016)
目標追蹤任務是指在一個視頻中給出第一幀圖像的bbox的位置,在后續的幀中追蹤該物體的任務。 目標追蹤不同于目標檢測的是:
1、需要給出首幀的標定框。
2、只需要給出標定框,后續的搜索范圍往往在上一幀圖像的附近。
孿生網絡是使用深度學習進行目標追蹤的重要解決方案,主要包括:孿生網絡解決目標追蹤開山之作SiamFC、SiamRPN、DaSiamRPN、SiamRPN++,SiamMask,下面對其進行簡要介紹:
3.1 SiamFC(2016)
3.1.1 網絡結構
SiamFC采用了全卷積式的Siamese網絡實現目標跟蹤,其網絡結構如下圖所示,具有兩個權值共享的分支。其中,z為127×127的模板圖像相當于要追蹤的目標,x為255×255的搜索圖像,我們要完成的就是在x中找到z的位置。
?
SiamFC有兩個分支對應兩個輸入為z和x,將他們同時輸入進行φ的計算,這里的作用就是進行特征提取,分別生成6×6×128和22×22×128的featuremap。φ所對應的特征提取網絡采用的是AlexNet,其結構如下:
?
將生成的featuremap輸入互相關層生成score map,實際上會進行如下的計算:
其中bI為每個位置對應的值,相當于是一個偏置,φ(x)和φ(z)是進行的卷積運算,通過卷積運算提取在x中與z最相似的部分。在SiamFC結構圖中,輸入的搜索圖像中有紅藍兩個區域在經過網絡后與score map中的紅藍響應值相對應。網絡輸出的是17×17 的score map,而輸入x是255×255的搜索圖像,怎樣將兩者的位置進行映射呢。這里,將17×17的score map進行雙三次插值生成272×272的圖像,來確定物體的位置。但是為什么不生成255×255的圖像呢?由于原始圖像相對比較粗糙,為了使定位更加準確,所以生成272*272的結果。
3.1.2 模型輸入
孿生網絡有兩個分支對應兩個輸入,z與x的大小并不是任意輸入的,而是對目標區域進行了擴充,如下圖所示:
上面的三張圖是網絡輸入的模板圖像z,下面對應的是網絡輸入的搜索圖像x,紅色為當前的所在幀的bounding-box。對于模板圖像來說,根據第一幀的groundtruth會得到目標的(x_min,y_min,w,h)四個值,會通過以下公式生成模板圖像的大小:
?
其中A=127*127,?s是對圖像進行的一種變換,先將包含上下文信息的(w+2p)×(h+2p)的圖片擴展,然后進行resize,生成127×127的模板圖像。 對于搜索圖像x來說,會從整張圖片中裁剪出255×255的圖片,裁剪的中心為上一幀預測的bounding-box的中心。為了提高跟蹤性能,選取了多種尺度進行預測。最初的SiamFC為5種尺度1.025^{-2,-1,0,1,2} ,其中255×255對應尺度為1。為了提升網絡的FPS,又提出了存在3種尺度的SiamFC-3s。當模板圖像和搜索圖像不夠裁剪時,會對不足的像素按照RGB通道的均值進行填充。
3.1.3 損失函數
為了構造有效的損失函數,對搜索區域的位置點進行了正負樣本的區分,即目標一定范圍內的點作為正樣本,這個范圍外的點作為負樣本,例如網絡結構圖中最右側生成的score map中,紅色點即正樣本,藍色點為負樣本。score map中的groundtruth按下式進行標記:
其中c為物體在score map的中心,u為score map中任意一點,∣∣u?c∣∣是u與c的歐氏距離,R為距離的閾值,k為score map經過網絡之后縮小的倍數,從網絡結構可以看出,有三層的卷積,池化是以2為步長,所以圖像經過網絡后會縮小2^3=8倍。
SiamFC采用的損失函數是logistic loss,具體的損失函數形式如下: 對于score map中了每個點的損失:
其中v是score map中每個點真實值,y∈{+1,?1} 是這個點所對應的標簽。 上式是score map中每個點的loss值,而對于score map整體的loss,則采用的是全部點的loss的均值。即:
D是生成的score map,∣D∣為heatmap的大小,u?D代表其在score map中的位置。
3.1.4 訓練與跟蹤
訓練過程使用隨機梯度下降法對下式進行優化:?
其中:θ代表著網絡參數。
跟蹤過程中模板圖像只提取一次特征,目標圖像在線不更新,對搜索圖像進行5個尺度的搜索,利用用雙三次插值將score map從 17×17 上采樣到 272×272,進行跟蹤目標的確定。
總結
以上是生活随笔為你收集整理的智慧交通day04-特定目标车辆追踪03:siamese在目标跟踪中的应用-SiamFC(2016)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 不动产中心考试计算机测试题,2005年全
- 下一篇: pushpop指令的操作数必须是字操作数