當(dāng)前位置：首頁 > 人工智能 > 目标检测 >内容正文

目标检测

深度学习和目标检测系列教程 7-300：先进的目标检测Faster R-CNN架构

發(fā)布時間：2024/10/8 目标检测 151 豆豆

生活随笔收集整理的這篇文章主要介紹了深度学习和目标检测系列教程 7-300：先进的目标检测Faster R-CNN架构小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

@Author：Runsen

Faster R-CNN

由于Fast R-CNN 過程中仍然存在一個瓶頸，即ROI Projection。眾所周知，檢測對象的第一步是在對象周圍生成一組潛在的邊界框。在 Fast R-CNN 中，ROI Projection是使用Selective Search創(chuàng)建的，發(fā)現(xiàn)一個非常緩慢的過程是整個對象檢測過程的瓶頸。

選擇性搜索是一個緩慢且耗時的過程，會影響網(wǎng)絡(luò)的性能。因此，任少清等人提出了一種對象檢測算法，該算法消除了選擇性搜索算法，讓網(wǎng)絡(luò)學(xué)習(xí)了區(qū)域提議區(qū)域提議。

Faster R-CNN與 Fast R-CNN 類似，圖像作為輸入，提供給提供卷積特征圖的卷積網(wǎng)絡(luò)。不是在特征圖上使用選擇性搜索算法來識別區(qū)域提議，而是使用單獨的網(wǎng)絡(luò)來預(yù)測ROI Projection。然后使用 RoI 池化層對預(yù)測的區(qū)域建議進(jìn)行重新整理，然后使用 RoI 池化層對建議區(qū)域內(nèi)的圖像進(jìn)行分類并預(yù)測邊界框的偏移值。

從上圖可以看出，Faster R-CNN 比Fast R-CNN要快得多。因此，它是目前先進(jìn)的目標(biāo)檢測算法。

為什么不將這些相同的 CNN 結(jié)果重用于區(qū)域提議，而不是運行單獨的選擇性搜索算法

讓我們看一個Faster R-CNN的思想，首先，讓我們了解一下具有不同縱橫比和尺度的重疊ROI的概念。

從圖像中，我們看到很多物體相互重疊。在電視機里看到一輛汽車、一輛自行車、一個拿著電視機的人和一只狗。選擇性搜索可以解決這個問題，但我們最終會得到大量的 ROI。我們需要想一個能有效解決這個問題的想法。

如果我們在不同的對象周圍繪制邊界框，它看起來是這樣的。

實現(xiàn)這一點有點復(fù)雜，但 Anchor Boxes 的想法使它變得簡單。讓我們了解這些錨框的含義。

通常，對象可以放入方形盒子中，也可以放入長方形和寬，或長方形和高。從廣義上講，它們可以說是大的、小的或中等的。因此，通過實驗發(fā)現(xiàn)，可以使用 3 種不同比例和 3 種不同縱橫比的框檢測圖像中的任何對象。

在Feature Map上使用不同大小的滑動窗口（如上圖的9個所示）。這個概念被稱為特征金字塔。這涉及在特征圖頂部使用 9 種不同大小的滑動窗口。

RPN

區(qū)域提議網(wǎng)絡(luò) (RPN) 從將輸入圖像饋送到卷積神經(jīng)網(wǎng)絡(luò)開始。首先調(diào)整輸入圖像的大小，使其最短邊為 600 像素，長邊不超過 1000 像素。
網(wǎng)絡(luò)的輸出特征（由H x W表示）通常比輸入圖像小得多，這取決于網(wǎng)絡(luò)模型的步幅。在Faster R-CNN論文中使用的兩個網(wǎng)絡(luò)模型（VGG、ZF-Net），網(wǎng)絡(luò)步長都是 16。這意味著網(wǎng)絡(luò)輸出特征中的兩個連續(xù)像素對應(yīng)于輸入圖像中相距 16 個像素的兩個點。

下圖顯示了在輸入圖像上，3 種不同縱橫比和 3 種不同尺寸的 9 個可能的錨點放置，使用的錨點具有 1282、2562、5122的 3 個盒子區(qū)域比例和 1:1、1:2 和 2:1 的 3 個縱橫比。

Faster R-CNN架構(gòu)

如下為整體框架結(jié)構(gòu)，結(jié)合上述過程來看，主要是三部分，Extrator進(jìn)行特征提取、RPN 生成候選框、RoIHead對候選框進(jìn)行分類并調(diào)整目標(biāo)預(yù)測框的位置與大小。

Faster R-CNN使用了預(yù)訓(xùn)練的VGG16作為backbone進(jìn)行特征提取，實現(xiàn)方法是加載預(yù)訓(xùn)練模型，抽取并分離前面的卷積層和后面的全連接層，固定卷積層中部分層的權(quán)重，用作特征提取，而全連接層則給 RoIHead 用作分類和回歸。

Faster R-CNN 聯(lián)合訓(xùn)練有 4 個損失：

RPN分類（IoU 大于 0.5 Object foreground/ IoU 介于 0.1 和 0.5background）
RPN 回歸（Anchor → ROI）
Fast RCNN 分類（對象類）。
Fast RCNN 回歸（ROI → Bounding Box）

總結(jié)，R-CNN 和 Fast R-CNN 都使用基于 CPU 的區(qū)域提議算法，例如選擇性搜索算法，每張圖像大約需要 2 秒并在 CPU 計算上運行。Faster R-CNN論文通過使用另一個卷積網(wǎng)絡(luò)（RPN）來生成區(qū)域提議來解決這個問題。這不僅將每個圖像的區(qū)域提議時間從 2 秒降低到 10 毫秒，而且還允許區(qū)域提議階段與以下檢測階段共享層，從而導(dǎo)致特征表示的整體改進(jìn)。

與50位技術(shù)專家面對面20年技術(shù)見證，附贈技術(shù)全景圖

總結(jié)

以上是生活随笔為你收集整理的深度学习和目标检测系列教程 7-300：先进的目标检测Faster R-CNN架构的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。