當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Faster R-CNN论文笔记——FR

發(fā)布時間：2025/3/21 编程问答 69 豆豆

生活随笔收集整理的這篇文章主要介紹了 Faster R-CNN论文笔记——FR 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

轉載自：http://blog.csdn.net/qq_17448289/article/details/52871461

在介紹Faster R-CNN之前，先來介紹一些前驗知識，為Faster R-CNN做鋪墊。

一、基于Region Proposal（候選區(qū)域）的深度學習目標檢測算法

Region Proposal（候選區(qū)域），就是預先找出圖中目標可能出現(xiàn)的位置，通過利用圖像中的紋理、邊緣、顏色等信息，保證在選取較少窗口（幾千個甚至幾百個）的情況下保持較高的召回率（IoU，Intersection-over-Union）。

圖1 ?IoU定義

Region Proposal方法比傳統(tǒng)的滑動窗口方法獲取的質量要更高。比較常用的Region Proposal方法有：SelectiveSearch(SS，選擇性搜索)、Edge Boxes（EB）。

基于Region Proposal目標檢測算法的步驟如下：

其中：

CNN方法見http://blog.csdn.net/qq_17448289/article/details/52850223。

邊框回歸（Bouding Box Regression）：是對RegionProposal進行糾正的線性回歸算法，目的是為了讓Region Proposal提取到的窗口與目標窗口（Ground Truth）更加吻合。

二、R-CNN、Fast R-CNN、Faster R-CNN三者關系

圖2 ?三者關系

表1 ?三者比較

使用方法

缺點

改進

R-CNN

(Region-based Convolutional

Neural Networks)

1、SS提取RP；

2、CNN提取特征；

3、SVM分類；

4、BB盒回歸。

1、訓練步驟繁瑣（微調網絡+訓練SVM+訓練bbox）；

2、訓練、測試均速度慢?；

3、訓練占空間

1、從DPM HSC的34.3%直接提升到了66%（mAP）；

2、引入RP+CNN

Fast R-CNN

(Fast Region-based Convolutional

Neural Networks)

1、SS提取RP；

2、CNN提取特征；

3、softmax分類；

4、多任務損失函數(shù)邊框回歸。

1、依舊用SS提取RP(耗時2-3s，特征提取耗時0.32s)；

2、無法滿足實時應用，沒有真正實現(xiàn)端到端訓練測試；

3、利用了GPU，但是區(qū)域建議方法是在CPU上實現(xiàn)的。

1、由66.9%提升到70%；

2、每張圖像耗時約為3s。

Faster R-CNN

(Fast Region-based Convolutional

Neural Networks)

1、RPN提取RP；

2、CNN提取特征；

3、softmax分類；

4、多任務損失函數(shù)邊框回歸。

1、還是無法達到實時檢測目標；

2、獲取region proposal，再對每個proposal分類計算量還是比較大。

1、提高了檢測精度和速度；

2、? 真正實現(xiàn)端到端的目標檢測框架；

3、? 生成建議框僅需約10ms。

2.1 R-CNN目標檢測流程介紹

具體可參考http://blog.csdn.net/shenxiaolu1984/article/details/51066975

2.2 Fast R-CNN目標檢測流程介紹

注意：Fast R-CNN的RegionProposal是在feature map之后做的，這樣可以不用對所有的區(qū)域進行單獨的CNN Forward步驟。

Fast R-CNN框架如下圖：

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 圖3 ?Fast R-CNN框架

Fast R-CNN框架與R-CNN有兩處不同：

① 最后一個卷積層后加了一個ROI pooling layer；

② 損失函數(shù)使用了multi-task loss（多任務損失）函數(shù)，將邊框回歸直接加到CNN網絡中訓練。分類Fast R-CNN直接用softmax替代R-CNN用的SVM進行分類。

Fast R-CNN是端到端（end-to-end）的。

具體可參考http://blog.csdn.net/shenxiaolu1984/article/details/51036677

三、Faster R-CNN目標檢測

3.1 Faster R-CNN的思想

Faster R-CNN可以簡單地看做“區(qū)域生成網絡RPNs + Fast R-CNN”的系統(tǒng)，用區(qū)域生成網絡代替FastR-CNN中的Selective Search方法。Faster R-CNN這篇論文著重解決了這個系統(tǒng)中的三個問題：
1. 如何設計區(qū)域生成網絡；
2. 如何訓練區(qū)域生成網絡；
3. 如何讓區(qū)域生成網絡和Fast RCNN網絡共享特征提取網絡。

在整個Faster R-CNN算法中，有三種尺度：
1. 原圖尺度：原始輸入的大小。不受任何限制，不影響性能。

2. 歸一化尺度：輸入特征提取網絡的大小，在測試時設置，源碼中opts.test_scale=600。anchor在這個尺度上設定。這個參數(shù)和anchor的相對大小決定了想要檢測的目標范圍。
3. 網絡輸入尺度：輸入特征檢測網絡的大小，在訓練時設置，源碼中為224*224。

3.2 Faster R-CNN框架介紹

圖4 ?Faster R-CNN模型

Faster-R-CNN算法由兩大模塊組成：

1.PRN候選框提取模塊；

2.Fast R-CNN檢測模塊。

其中，RPN是全卷積神經網絡，用于提取候選框；Fast R-CNN基于RPN提取的proposal檢測并識別proposal中的目標。

3.3 RPN介紹

3.3.1背景

目前最先進的目標檢測網絡需要先用區(qū)域建議算法推測目標位置，像SPPnet和Fast R-CNN這些網絡雖然已經減少了檢測網絡運行的時間，但是計算區(qū)域建議依然耗時較大。所以，在這樣的瓶頸下，RBG和Kaiming He一幫人將Region Proposal也交給CNN來做，這才提出了RPN（Region Proposal Network）區(qū)域建議網絡用來提取檢測區(qū)域，它能和整個檢測網絡共享全圖的卷積特征，使得區(qū)域建議幾乎不花時間。

RCNN解決的是，“為什么不用CNN做classification呢？”

Fast R-CNN解決的是，“為什么不一起輸出bounding box和label呢？”

Faster R-CNN解決的是，“為什么還要用selective search呢？”

3.3.2RPN核心思想

RPN的核心思想是使用CNN卷積神經網絡直接產生Region Proposal，使用的方法本質上就是滑動窗口（只需在最后的卷積層上滑動一遍），因為anchor機制和邊框回歸可以得到多尺度多長寬比的Region Proposal。

RPN網絡也是全卷積網絡（FCN，fully-convolutional network），可以針對生成檢測建議框的任務端到端地訓練，能夠同時預測出object的邊界和分數(shù)。只是在CNN上額外增加了2個卷積層（全卷積層cls和reg）。

①將每個特征圖的位置編碼成一個特征向量（256dfor ZF and 512d for VGG）。

②對每一個位置輸出一個objectness score和regressedbounds for k個region proposal，即在每個卷積映射位置輸出這個位置上多種尺度（3種）和長寬比（3種）的k個（3*3=9）區(qū)域建議的物體得分和回歸邊界。

RPN網絡的輸入可以是任意大小（但還是有最小分辨率要求的，例如VGG是228*228）的圖片。如果用VGG16進行特征提取，那么RPN網絡的組成形式可以表示為VGG16+RPN。

VGG16：參考

https://github.com/rbgirshick/py-faster-rcnn/blob/master/models/pascal_voc/VGG16/faster_rcnn_end2end/train.prototxt，可以看出VGG16中用于特征提取的部分是13個卷積層（conv1_1---->conv5.3），不包括pool5及pool5后的網絡層次結構。

因為我們的最終目標是和Fast R-CNN目標檢測網絡共享計算，所以假設這兩個網絡共享一系列卷積層。在論文的實驗中，ZF有5個可共享的卷積層， VGG有13個可共享的卷積層。

RPN的具體流程如下：使用一個小網絡在最后卷積得到的特征圖上進行滑動掃描，這個滑動網絡每次與特征圖上n*n（論文中n=3）的窗口全連接（圖像的有效感受野很大，ZF是171像素，VGG是228像素），然后映射到一個低維向量（256d for ZF / 512d for VGG），最后將這個低維向量送入到兩個全連接層，即bbox回歸層（reg）和box分類層（cls）。sliding window的處理方式保證reg-layer和cls-layer關聯(lián)了conv5-3的全部特征空間。

reg層：預測proposal的anchor對應的proposal的（x,y,w,h）

cls層：判斷該proposal是前景（object）還是背景（non-object）。

圖5 ?RPN框架

在圖5中，要注意，3*3卷積核的中心點對應原圖（re-scale，源代碼設置re-scale為600*1000）上的位置（點），將該點作為anchor的中心點，在原圖中框出多尺度、多種長寬比的anchors。所以，anchor不在conv特征圖上，而在原圖上。對于一個大小為H*W的特征層，它上面每一個像素點對應9個anchor,這里有一個重要的參數(shù)feat_stride = 16，它表示特征層上移動一個點，對應原圖移動16個像素點(看一看網絡中的stride就明白16的來歷了)。把這9個anchor的坐標進行平移操作，獲得在原圖上的坐標。之后根據(jù)ground truth label和這些anchor之間的關系生成rpn_lables，具體的方法論文中有提到，根據(jù)overlap來計算，這里就不詳細說明了，生成的rpn_labels中，positive的位置被置為1，negative的位置被置為0，其他的為-1。box_target通過_compute_targets()函數(shù)生成，這個函數(shù)實際上是尋找每一個anchor最匹配的ground truth box，然后進行論文中提到的box坐標的轉化。http://blog.csdn.net/zhangwenjie89/article/details/52012880

圖6 ?9種anchor（注意：是不同位置）

圖7 ?Faster R-CNN卷積流程圖

原圖600*1000經CNN卷積后，在CNN最后一層（conv5）得出的是40*60大小的特征圖，對應文中說的典型值為2400。若特征圖大小為W*H，則需要W*H*K個anchor，本文中需要40*60*9≈2k個。

在RPN網絡中，我們需要重點理解其中的anchors概念，Loss fucntions計算方式和RPN層訓練數(shù)據(jù)生成的具體細節(jié)。

3.4 RPN的平移不變性

在計算機視覺中的一個挑戰(zhàn)就是平移不變性:比如人臉識別任務中，小的人臉(24*24的分辨率)和大的人臉(1080*720)如何在同一個訓練好權值的網絡中都能正確識別。若是平移了圖像中的目標，則建議框也應該平移，也應該能用同樣的函數(shù)預測建議框。

傳統(tǒng)有兩種主流的解決方式：
第一、對圖像或feature map層進行尺度\寬高的采樣;
第二、對濾波器進行尺度\寬高的采樣(或可以認為是滑動窗口).

但Faster R-CNN解決該問題的具體實現(xiàn)是：通過卷積核中心(用來生成推薦窗口的Anchor)進行尺度、寬高比的采樣，使用3種尺度和3種比例來產生9種anchor。

3.5 窗口分類和位置精修

分類層（cls_score）輸出每一個位置上，9個anchor屬于前景和背景的概率。

窗口回歸層（bbox_pred）輸出每一個位置上，9個anchor對應窗口應該平移縮放的參數(shù)（x,y,w,h）。

對于每一個位置來說，分類層從256維特征中輸出屬于前景和背景的概率；窗口回歸層從256維特征中輸出4個平移縮放參數(shù)。

需要注意的是：并沒有顯式地提取任何候選窗口，完全使用網絡自身完成判斷和修正。

3.6 學習區(qū)域建議損失函數(shù)

3.6.1 標簽分類規(guī)定

為了訓練RPN，需要給每個anchor分配的類標簽{目標、非目標}。對于positive label（正標簽），論文中給了如下規(guī)定（滿足以下條件之一即可判為正標簽）：

注意，一個GT包圍盒可以對應多個anchor，這樣一個GT包圍盒就可以有多個正標簽。

事實上，采用第②個規(guī)則基本上可以找到足夠的正樣本，但是對于一些極端情況，例如所有的Anchor對應的anchor box與groud truth的IoU不大于0.7,可以采用第一種規(guī)則生成。

negative label（負標簽）：與所有GT包圍盒的IoU都小于0.3的anchor。

對于既不是正標簽也不是負標簽的anchor，以及跨越圖像邊界的anchor我們給予舍棄，因為其對訓練目標是沒有任何作用的。

3.6.2 多任務損失（來自Fast R-CNN）

圖8? multi-task數(shù)據(jù)結構

Fast R-CNN網絡有兩個同級輸出層（cls score和bbox_prdict層），都是全連接層，稱為multi-task。

① clsscore層：用于分類，輸出k+1維數(shù)組p，表示屬于k類和背景的概率。對每個RoI（Region of Interesting）輸出離散型概率分布

通常，p由k+1類的全連接層利用softmax計算得出。

② bbox_prdict層：用于調整候選區(qū)域位置，輸出bounding box回歸的位移，輸出4*K維數(shù)組t，表示分別屬于k類時，應該平移縮放的參數(shù)。

k表示類別的索引，是指相對于objectproposal尺度不變的平移，是指對數(shù)空間中相對于objectproposal的高與寬。

loss_cls層評估分類損失函數(shù)。由真實分類u對應的概率決定：

loss_bbox評估檢測框定位的損失函數(shù)。比較真實分類對應的預測平移縮放參數(shù)和

真實平移縮放參數(shù)為的差別：

其中，smooth L1損失函數(shù)為：

smooth L1損失函數(shù)曲線如下圖9所示，作者這樣設置的目的是想讓loss對于離群點更加魯棒，相比于L2損失函數(shù)，其對離群點、異常值（outlier）不敏感，可控制梯度的量級使訓練時不容易跑飛。

圖9? smoothL1損失函數(shù)曲線

最后總損失為（兩者加權和，如果分類為背景則不考慮定位損失）：

規(guī)定u=0為背景類（也就是負標簽），那么艾弗森括號指數(shù)函數(shù)[u≥1]表示背景候選區(qū)域即負樣本不參與回歸損失，不需要對候選區(qū)域進行回歸操作。λ控制分類損失和回歸損失的平衡。Fast R-CNN論文中，所有實驗λ=1。

艾弗森括號指數(shù)函數(shù)為：

源碼中bbox_loss_weights用于標記每一個bbox是否屬于某一個類。

3.6.3 Faster R-CNN損失函數(shù)

遵循multi-task loss定義，最小化目標函數(shù)，FasterR-CNN中對一個圖像的函數(shù)定義為：

其中：

3.6.4 R-CNN中的boundingbox回歸

下面先介紹R-CNN和Fast R-CNN中所用到的邊框回歸方法。

1.??????為什么要做Bounding-box regression？

圖10? 示例

如圖10所示，綠色的框為飛機的Ground Truth，紅色的框是提取的Region Proposal。那么即便紅色的框被分類器識別為飛機，但是由于紅色的框定位不準(IoU<0.5)，那么這張圖相當于沒有正確的檢測出飛機。如果我們能對紅色的框進行微調，使得經過微調后的窗口跟Ground Truth更接近，這樣豈不是定位會更準確。確實，Bounding-box regression 就是用來微調這個窗口的。

2.??????回歸/微調的對象是什么？

3.??????Bounding-box regression（邊框回歸）

那么經過何種變換才能從圖11中的窗口P變?yōu)榇翱谀?#xff1f;比較簡單的思路就是：

注意：只有當Proposal和Ground Truth比較接近時（線性問題），我們才能將其作為訓練樣本訓練我們的線性回歸模型，否則會導致訓練的回歸模型不work（當Proposal跟GT離得較遠，就是復雜的非線性問題了，此時用線性回歸建模顯然不合理）。這個也是G-CNN: an Iterative Grid Based Object Detector多次迭代實現(xiàn)目標準確定位的關鍵。

線性回歸就是給定輸入的特征向量X，學習一組參數(shù)W，使得經過線性回歸后的值跟真實值Y(Ground Truth)非常接近。即。那么Bounding-box中我們的輸入以及輸出分別是什么呢？

輸入：這個是什么？輸入就是這四個數(shù)值嗎？其實真正的輸入是這個窗口對應的CNN特征，也就是R-CNN中的Pool5feature（特征向量）。(注：訓練階段輸入還包括 Ground Truth，也就是下邊提到的)

輸出：需要進行的平移變換和尺度縮放，或者說是。我們的最終輸出不應該是Ground Truth嗎？是的，但是有了這四個變換我們就可以直接得到Ground Truth，這里還有個問題，根據(jù)上面4個公式我們可以知道，P經過，得到的并不是真實值G，而是預測值。

的確，這四個值應該是經過 Ground Truth 和Proposal計算得到的真正需要的平移量和尺度縮放。

這也就是R-CNN中的：

那么目標函數(shù)可以表示為是輸入Proposal的特征向量，是要學習的參數(shù)（*表示，也就是每一個變換對應一個目標函數(shù)），是得到的預測值。我們要讓預測值跟真實值差距最小，得到損失函數(shù)為：

函數(shù)優(yōu)化目標為：

利用梯度下降法或者最小二乘法就可以得到。

4.??????測試階段
???根據(jù)3我們學習到回歸參數(shù)，對于測試圖像，我們首先經過 CNN 提取特征，預測的變化就是，最后根據(jù)以下4個公式對窗口進行回歸：

3.6.5 Faster R-CNN中的bounding box回歸

其中：

※注意：計算regression loss需要三組信息：

1)?????預測框，即RPN網絡測出的proposa；

2)?????錨點anchor box：之前的9個anchor對應9個不同尺度和長寬比的anchorbox；

3)?????GroundTruth：標定的框。

3.7 訓練RPNs

RPN通過反向傳播（BP，back-propagation）和隨機梯度下降（SGD，stochastic gradient descent）進行端到端（end-to-end）訓練。依照FastR-CNN中的“image-centric”采樣策略訓練這個網絡。每個mini-batch由包含了許多正負樣本的單個圖像組成。我們可以優(yōu)化所有anchor的損失函數(shù)，但是這會偏向于負樣本，因為它們是主要的。

采樣

每一個mini-batch包含從一張圖像中隨機提取的256個anchor（注意，不是所有的anchor都用來訓練），前景樣本和背景樣本均取128個，達到正負比例為1:1。如果一個圖像中的正樣本數(shù)小于128，則多用一些負樣本以滿足有256個Proposal可以用于訓練。

初始化

新增的2層參數(shù)用均值為0，標準差為0.01的高斯分布來進行初始化，其余層（都是共享的卷積層，與VGG共有的層）參數(shù)用ImageNet分類預訓練模型來初始化。

參數(shù)化設置（使用caffe實現(xiàn)）

在PASCAL數(shù)據(jù)集上：

前60k個mini-batch進行迭代，學習率設為0.001；

后20k個mini-batch進行迭代，學習率設為0.0001；

設置動量momentum=0.9，權重衰減weightdecay=0.0005。

3.8 非極大值抑制法

訓練時（eg：輸入600*1000的圖像），如果anchor box的邊界超過了圖像邊界，那這樣的anchors對訓練loss也不會產生影響，我們將超過邊界的anchor舍棄不用。一幅600*1000的圖像經過VGG16后大約為40*60，則此時的anchor數(shù)為40*60*9，約為20k個anchor boxes，再去除與邊界相交的anchor boxes后，剩下約為6k個anchor boxes，這么多數(shù)量的anchorboxes之間肯定是有很多重疊區(qū)域，因此需要使用非極大值抑制法（NMS，non-maximum suppression）將IoU＞0.7的區(qū)域全部合并，最后就剩下約2k個anchor boxes（同理，在最終檢測端，可以設置將概率大約某閾值P且IoU大約某閾值T的預測框采用NMS方法進行合并，注意：這里的預測框指的不是anchor boxes）。NMS不會影響最終的檢測準確率，但是大幅地減少了建議框的數(shù)量。NMS之后，我們用建議區(qū)域中的top-N個來檢測（即排過序后取N個）。

3.9 RPN與Fast R-CNN特征共享

Faster-R-CNN算法由兩大模塊組成：

1.PRN候選框提取模塊；

2.Fast R-CNN檢測模塊。

我們已經描述了如何為生成區(qū)域建議訓練網絡，而沒有考慮基于區(qū)域的目標檢測CNN如何利用這些建議框。對于檢測網絡，我們采用Fast R-CNN，現(xiàn)在描述一種算法，學習由RPN和Fast R-CNN之間共享的卷積層。

RPN和Fast R-CNN都是獨立訓練的，要用不同方式修改它們的卷積層。因此需要開發(fā)一種允許兩個網絡間共享卷積層的技術，而不是分別學習兩個網絡。注意到這不是僅僅定義一個包含了RPN和Fast R-CNN的單獨網絡，然后用反向傳播聯(lián)合優(yōu)化它那么簡單。原因是Fast R-CNN訓練依賴于固定的目標建議框，而且并不清楚當同時改變建議機制時，學習Fast R-CNN會不會收斂。

RPN在提取得到proposals后，作者選擇使用Fast-R-CNN實現(xiàn)最終目標的檢測和識別。RPN和Fast-R-CNN共用了13個VGG的卷積層，顯然將這兩個網絡完全孤立訓練不是明智的選擇，作者采用交替訓練（Alternating training）階段卷積層特征共享：

第一步，我們依上述訓練RPN，該網絡用ImageNet預訓練的模型初始化，并端到端微調用于區(qū)域建議任務；

第二步，我們利用第一步的RPN生成的建議框，由Fast R-CNN訓練一個單獨的檢測網絡，這個檢測網絡同樣是由ImageNet預訓練的模型初始化的，這時候兩個網絡還沒有共享卷積層；

第三步，我們用檢測網絡初始化RPN訓練，但我們固定共享的卷積層，并且只微調RPN獨有的層，現(xiàn)在兩個網絡共享卷積層了；

第四步，保持共享的卷積層固定，微調Fast R-CNN的fc層。這樣，兩個網絡共享相同的卷積層，構成一個統(tǒng)一的網絡。

注意：第一次迭代時，用ImageNet得到的模型初始化RPN和Fast-R-CNN中卷積層的參數(shù)；從第二次迭代開始，訓練RPN時，用Fast-R-CNN的共享卷積層參數(shù)初始化RPN中的共享卷積層參數(shù)，然后只Fine-tune不共享的卷積層和其他層的相應參數(shù)。訓練Fast-RCNN時，保持其與RPN共享的卷積層參數(shù)不變，只Fine-tune不共享的層對應的參數(shù)。這樣就可以實現(xiàn)兩個網絡卷積層特征共享訓練。相應的網絡模型請參考https://github.com/rbgirshick/py-faster-rcnn/tree/master/models/pascal_voc/VGG16/faster_rcnn_alt_opt

總結

以上是生活随笔為你收集整理的Faster R-CNN论文笔记——FR的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Caffe:solver及其配置
下一篇： CNN 中1X1卷积核的作用

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

编程问答

Faster R-CNN论文笔记——FR

在介紹Faster R-CNN之前，先來介紹一些前驗知識，為Faster R-CNN做鋪墊。

一、基于Region Proposal（候選區(qū)域）的深度學習目標檢測算法

二、R-CNN、Fast R-CNN、Faster R-CNN三者關系

2.1 R-CNN目標檢測流程介紹

2.2 Fast R-CNN目標檢測流程介紹

三、Faster R-CNN目標檢測

3.1 Faster R-CNN的思想

3.2 Faster R-CNN框架介紹

3.3 RPN介紹

3.3.1背景

3.3.2RPN核心思想

3.4 RPN的平移不變性

3.5 窗口分類和位置精修

3.6 學習區(qū)域建議損失函數(shù)

3.6.1 標簽分類規(guī)定

3.6.2 多任務損失（來自Fast R-CNN）

3.6.3 Faster R-CNN損失函數(shù)

3.6.4 R-CNN中的boundingbox回歸

3.6.5 Faster R-CNN中的bounding box回歸

3.7 訓練RPNs

采樣

初始化

參數(shù)化設置（使用caffe實現(xiàn)）

3.9 RPN與Fast R-CNN特征共享

總結