當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Faster R-CNN理解、讨论

發布時間：2025/3/15 编程问答 39 豆豆

生活随笔收集整理的這篇文章主要介紹了 Faster R-CNN理解、讨论小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

論文 :?Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J]. PAMI2017.

GitHub :

? ? 1. matlab version :?https://github.com/ShaoqingRen/faster_rcnn

? ? 2. python version :?https://github.com/rbgirshick/py-faster-rcnn

? ? 3. 補充程序Detectron :?https://github.com/facebookresearch/Detectron?(Detectron is Facebook AI Research's software system that implements state-of-the-art object detection algorithms, including?Mask R-CNN. It is written in Python and powered by the?Caffe2?deep learning framework.)

1. 前言

在Faster R-CNN出現之前，已經存在了R-CNN（無法實現End-to-End訓練）和Fast R-CNN（Selective Search耗時），Shaoqing Ren在2016年NIP上提出了Faster R-CNN. 從上面的結構上，我們能夠看出來，Faster R-CNN將特征提取、proposal提取、Bounding Box Regression、Classification整合到一個網絡中，目標檢測速度有了很大的提升。與R-CNN、Fast R-CNN相比，Faster R-CNN具體執行步驟如下：

特征提取(convolutional layer)。Faster R-CNN首先使用一組基礎的conv+relu+pooling層提取候選圖像的特征圖。該特征圖被共享用于后續RPN（Region Proposal Network）層和全連接(fully connection)層。
區域候選網絡(Region Proposal Network)。RPN網絡用于生成區域候選圖像塊。該層通過softmax判斷錨點(anchors)屬于前景(foreground)或者背景(background)，再利用邊界框回歸(bounding box regression)修正anchors獲得精確的proposals。
目標區池化(Roi Pooling)。該層收集輸入的特征圖和候選的目標區域，綜合這些信息后提取目標區域的特征圖，送入后續全連接層判定目標類別。
目標分類(Classification)。利用目標區域特征圖計算目標區域的類別，同時再次邊界框回歸獲得檢測框最終的精確位置。

由此，我們也能看出，Faster R-CNN最大的亮點在于提出了一種有效定位目標區域的方法，然后按區域在特征圖上進行特征索引，大大降低了卷積計算的時間消耗，所以速度上有了非常大的提升。

以如上GitHub中Python的項目為例，可以更加直接分析Faster R-CNN的設計思想。

對于任意PxQ的圖像，首先裁剪到固定大小MxN。然后，利用VGG16全卷積模型計算該圖像對應的特征圖。

特征圖的一個分支輸入RPN網絡用于計算Region Proposal。RPN網絡首先經過3x3卷積，再分別生成前景錨點(foreground anchors)與邊界框回歸(bounding box regression)偏移量，然后計算出候選的目標區域；

Roi Pooling層則利用proposals從feature maps中提取proposal feature送入后續全連接和softmax網絡作目標分類和邊界框精細回歸。

2. 原理

2.1 卷積網絡計算特征圖

? ? 提取圖像特征的卷積網絡使用了最常見的模塊，如卷積convolution、池化pooling、激活函數ReLUctant。在使用Python實現的FasterR-CNN模型，直接采用了VGG16計算圖像的特征圖。所以卷積網絡包括13個卷積層，13個激活層，4個池化層。原文作者在進行卷子操作的時候進行了圖像邊緣補充操作，并使用了3x3的卷積核。具體信息為conv=3x3, padding=1, striide=1; Pooling=2x2, padding = 0, stride=2; 這樣做簡化了計算復雜性。也就是說3x3的卷積操作后，圖像的尺寸不變； 2x2的池化操作后，圖像的尺寸變為原圖的0.5x0.5。所以，一張MxN大小的圖像經過VGG16計算后，特征圖像尺寸變為(M/16)x(N/16)。因此，特征圖和原始圖像就可以對應。

2.2 區域候選網絡

經典的檢測方法生成檢測框都非常耗時，如OpenCV adaboost使用滑動窗口+圖像金字塔生成檢測框；或如R-CNN使用SS(Selective Search)方法生成檢測框。而Faster RCNN則拋棄了傳統的滑動窗口和SS方法，直接使用RPN生成檢測框，這也是Faster R-CNN的巨大優勢，能極大提升檢測框的生成速度。

上圖就是原文作者提出的Region Proposal Network示意圖，這個網絡實際分為2條線，上面的網絡分支通過softmax分類anchors獲得前景和背景（實際應用過程中，我們將目標默認為前景）；下面的網絡分支用于計算對于anchors的邊界框回歸的偏移量，以獲得精確的目標候選區。

跟隨的Proposal層綜合前景錨點和邊界框回歸偏移量獲取目標的候選區，同時剔除太小和超出邊界的目標區域。所以，RPN實際就是實現了目標定位功能。

? ? 2.2.1 anchors

? ? 在Python實現的Faster R-CNN項目中，所謂anchors，實際上就是一組由rpn/generate_anchors.py生成的矩形。直接運行作者demo中的generate_anchors.py可以得到以下輸出：

[[ -84. -40. 99. 55.][-176. -88. 191. 103.][-360. -184. 375. 199.][ -56. -56. 71. 71.][-120. -120. 135. 135.][-248. -248. 263. 263.][ -36. -80. 51. 95.][ -80. -168. 95. 183.][-168. -344. 183. 359.]]

其中每行的4個值(x1, y1, x2, y2) 表矩形左上和右下角點坐標。9個矩形共有3種形狀，長寬比為大約為with:height∈{1:1, 1:2, 2:1}三種，如下圖所示。實際上通過anchors就引入了檢測中常用到的多尺度方法。

注：關于上面的anchors size，其實是根據檢測圖像設置的。在python demo中，會把任意大小的輸入圖像reshape成800x600。anchors中長寬1:2中最大為352x704，長寬2:1中最大736x384，基本是覆蓋了800x600的各個尺度和形狀。
那么這9個anchors是做什么的呢？借用Faster RCNN論文中的原圖，如下所示，遍歷卷積網絡計算獲得的特征圖，為每一個點都配備這9種anchors作為初始的檢測框。這樣做獲得檢測框很不準確，不用擔心，后面還有2次bounding box regression可以修正檢測框位置。

解釋一下上面這張圖的數字。

原文中使用的是ZF model中，其Conv Layers中最后的conv5層num_output=256，對應生成256張特征圖，所以相當于feature map每個點都是256-dimensions

在conv5之后，做了rpn_conv/3x3卷積且num_output=256，相當于每個點又融合了周圍3x3的空間信息，同時256-d不變

假設在conv5 feature map中每個點上有k個anchor（默認k=9），而每個anhcor要分foreground和background，所以每個點由256d feature轉化為cls=2k scores；而每個anchor都有[x, y, w, h]對應4個偏移量，所以reg=4k coordinates

補充一點，全部anchors拿去訓練太多了，訓練程序會在合適的anchors中隨機選取128個postive anchors+128個negative anchors進行訓練

Comment：其實RPN最終就是在原圖尺度上，設置了密密麻麻的候選Anchor。然后用cnn去判斷哪些Anchor是里面有目標的foreground anchor，哪些是沒目標的backgroud。所以，僅僅是個二分類而已！

那么Anchor一共有多少個？原圖800x600，VGG下采樣16倍，feature map每個點設置9個Anchor，所以：ceil(800/16) * ceil(600/16) * 6=17100個候選框。

? ? 2.2.2 前景錨點背景錨點分類

? ??一副MxN大小的矩陣送入Faster RCNN網絡后，到RPN網絡變為(M/16)x(N/16)，不妨設 W=M/16，H=N/16。在進入reshape與softmax之前，先做了1x1卷積，如上圖所示。可以看到其num_output=18，也就是經過該卷積的輸出圖像為WxHx18大小。這也就剛好對應了feature maps每一個點都有9個anchors，同時每個anchors又有可能是foreground和background，所有這些信息都保存WxHx(9*2)大小的矩陣。為何這樣做？后面接softmax分類獲得foreground anchors，也就相當于初步提取了檢測目標候選區域box（一般認為目標在foreground anchors中）。

? ? 2.3 邊界框回歸原理與實現方法

? ??

如圖所示綠色框為飛機的Ground Truth(GT)，紅色為提取的foreground anchors，即便紅色的框被分類器識別為飛機，但是由于紅色的框定位不準，這張圖相當于沒有正確的檢測出飛機。所以我們希望采用一種方法對紅色的框進行微調，使得foreground anchors和GT更加接近

對于窗口一般使用四維向量 (x, y, w, h)表示，分別表示窗口的中心點坐標和寬高。對于圖 11，紅色的框A代表原始的Foreground Anchors，綠色的框G代表目標的GT，我們的目標是尋找一種關系，使得輸入原始的anchor A經過映射得到一個跟真實窗口G更接近的回歸窗口G'，即：

給定：anchor??和?
尋找一種變換F，使得：，其中

? ??

那么經過何種變換F才能從圖10中的anchor A變為G'呢？比較簡單的思路就是:

先做平移

再做縮放

? ? 觀察上面4個公式發現，需要學習的是??這四個變換。當輸入的anchor A與GT相差較小時，可以認為這種變換是一種線性變換，那么就可以用線性回歸來建模對窗口進行微調（注意，只有當anchors A和GT比較接近時，才能使用線性回歸模型，否則就是復雜的非線性問題了）。
? ? 接下來的問題就是如何通過線性回歸獲得??了。線性回歸就是給定輸入的特征向量X, 學習一組參數W, 使得經過線性回歸后的值跟真實值Y非常接近，即。對于該問題，輸入X是cnn feature map，定義為Φ；同時還有訓練傳入A與GT之間的變換量，即。輸出是四個變換。那么目標函數可以表示為：

? ? 其中Φ(A)是對應anchor的feature map組成的特征向量，w是需要學習的參數，d(A)是得到的預測值（*表示 x，y，w，h，也就是每一個變換對應一個上述目標函數）。為了讓預測值與真實值差距最小，設計損失函數：

函數優化目標為：

? ? 需要說明，只有在GT與需要回歸框位置比較接近時，才可近似認為上述線性變換成立。
? ? 說完原理，對應于Faster RCNN原文，foreground anchor與ground truth之間的平移量??與尺度因子??如下：

? ? 對于訓練bouding box regression網絡回歸分支，輸入是cnn feature Φ，監督信號是Anchor與GT的差距?，即訓練目標是：輸入 Φ的情況下使網絡輸出與監督信號盡可能接近。
那么當bouding box regression工作時，再輸入Φ時，回歸網絡分支的輸出就是每個Anchor的平移量和變換尺度?，顯然即可用來修正Anchor位置了。

? ? 在了解bounding box regression后，再回頭來看RPN網絡的邊界框回歸部分，如上圖所示。

? ?2.2.3?Proposal Layer

? ??Proposal Layer負責綜合所有??變換量和foreground anchors，計算出精準的proposal，送入后續RoI Pooling Layer。

? ? Proposal Layer有3個輸入：fg/bg anchors分類器結果rpn_cls_prob_reshape，對應的bbox reg的變換量rpn_bbox_pred，以及im_info；另外還有參數feat_stride=16。
? ? 對于一副任意大小PxQ圖像，傳入Faster RCNN前首先reshape到固定MxN，im_info=[M, N, scale_factor]則保存了此次縮放的所有信息。然后經過Conv Layers，經過4次pooling變為WxH=(M/16)x(N/16)大小，其中feature_stride=16則保存了該信息，用于計算anchor偏移量。整個流程可以解釋為：生成anchors -> softmax分類器提取fg anchors -> bbox reg回歸fg anchors -> Proposal Layer生成proposals。

2.3.?RoI pooling

? ??RoI Pooling層負責收集proposal，并計算出proposal feature maps，送入后續網絡。Rol pooling層有2個輸入：

原始的feature maps

RPN輸出的proposal boxes（大小各不相同）

2.4 分類

? ? 分類部分利用已經獲得的proposal feature maps，通過full connection層與softmax計算每個proposal具體屬于那個類別（如人，車，電視等），輸出cls_prob概率向量；同時再次利用bounding box regression獲得每個proposal的位置偏移量bbox_pred，用于回歸更加精確的目標檢測框。Classification部分網絡結構如下圖所示。

2.5?Faster R-CNN訓練

Faster R-CNN的訓練，是在已經訓練好的model（如VGG_CNN_M_1024，VGG，ZF）的基礎上繼續進行訓練。實際中訓練過程分為6個步驟：

在已經訓練好的model上，訓練RPN網絡，對應stage1_rpn_train.pt

利用步驟1中訓練好的RPN網絡，收集proposals，對應rpn_test.pt

第一次訓練Fast RCNN網絡，對應stage1_fast_rcnn_train.pt

第二訓練RPN網絡，對應stage2_rpn_train.pt

再次利用步驟4中訓練好的RPN網絡，收集proposals，對應rpn_test.pt

第二次訓練Fast RCNN網絡，對應stage2_fast_rcnn_train.pt

可以看到訓練過程類似于一種“迭代”的過程，不過只循環了2次。至于只循環了2次的原因是應為作者提到："A similar alternating training can be run for more iterations, but we have observed negligible improvements"，即循環更多次沒有提升了。接下來本章以上述6個步驟講解訓練過程。

下面是一張訓練過程流程圖，應該更加清晰。

3. 參考資源

1.?http://www.telesens.co/2018/03/11/object-detection-and-classification-using-r-cnns/

2.?https://zhuanlan.zhihu.com/p/24916624

3.?https://zhuanlan.zhihu.com/p/31426458?（極力推薦，值得仔細閱讀）

總結

以上是生活随笔為你收集整理的Faster R-CNN理解、讨论的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

CNN
Faster

上一篇：最大似然估计（MLE：样本观测总体参数）
下一篇： IBM推新编码系统实现高清视频技术大突