當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文笔记：YOLO

發布時間：2025/3/21 编程问答 16 豆豆

生活随笔收集整理的這篇文章主要介紹了论文笔记：YOLO 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

原文：You Only Look Once: Unified, Real-Time Object Detection

YOLO

1、四個問題

要解決什么問題？

對于目標檢測任務來說，速度較快的算法性能較弱，然而性能較強的算法（如：R-CNN系列）耗時則更多，很難達到實時性的要求。
大多數像RCNN這類的算法流程是，第一步先獲取候選區域（region proposal），接著進行后處理（消除重復框，對候選框進行分類等等）。這樣的操作往往很慢也很難優化，因為每個獨立的模塊都要單獨訓練，實時性要求也達不到。

用了什么方法解決？

將目標檢測直接轉換為一個回歸問題，直接使用一個神經網絡來預測候選框和物體類別。

效果如何？

YOLO網絡的速度有很大提高。
基本的YOLO網絡可以做到45FPS。
對于較小的Fast YOLO模型，幀數可以達到155FPS，且相比于其他實時檢測模型效果更好。
對背景的分類錯誤少了很多。

還存在什么問題？

YOLO在準確率上還比不過state-of-the-art的模型。
與R-CNN系列相比，候選框的預測有較大誤差，且對新數據的泛化能力較弱。
對于數量較多的小物體，如一群小鳥，識別效果不好。

2、論文概述

2.1、總體框架

將輸入縮放為

448 \times 448

的圖像。

把圖像送入CNN，跑一次前向，計算得到（邊界框和物體類別的預測）。

通過每個邊界框的configdence篩選邊界框，使用NMS去除重復的框。

2.2、統一檢測（Unified Detection）

將輸入圖像劃分為 $\times S$ 個單元格（grid cell）。如果某個物體的中心在某個單元格內，那么那個單元格就負責檢測那個物體。
每個單元格（grid cell）要預測 $B$ 個bounding box，每個bounding box除了要預測框的位置外，還要預測一個置信率（confidence）。具體來說，每個bounding box包含5個預測值： $x$ 、 $y$ 、 $w$ 、 $h$ 和置信率（confidence）。
- $(x, y)$ 表示的是預測的bounding box的中心點坐標。
- $w$ 、 $h$ 表示的是bounding box的寬和高。
- confidence包含了兩重信息：
- 有多確信這個單元格（grid cell）內有物體？
- 預測的bounding box有多精確？
- 計算公式： $Pr(object) * IOU_{pred}^{truth}$ 。
  - 如果這個單元格內有物體，則 $P r (o b j e c t)$ 取1，否則取0。
  - $IOU_{pred}^{truth}$ 表示的是預測的bounding box與ground truth之間的重疊比例，它這里用的是intersection over union (IOU) 這個指標。
每個grid cell還需要預測 $C$ 個類的輸出，即預測為哪個類的輸出，使用one-hot編碼。
整體來看，總共 $\times S$ 個grid cell，每個grid要預測 $B$ 個bounding box和 $C$ 個類的輸出。網絡的輸出定義為一個長度為 $\times S \times ( B * 5 + C)$ 的張量。

2.3、網絡結構

網絡結構如下：

2.4、訓練

先在ImageNet上對前20個卷積層接上一個平均池化層和全連接層進行預訓練。
隨后保留那20個卷積層，再加上4個新的卷積層和2個全連接層，新加的層使用隨機權重初始化。
由于還需要對細粒度視覺信息進行分類，故將輸入圖片的分辨率調整為 $448 \times 448$ （原始分辨率為 $224 \times 224$ ）。
bounding box預測的中心點坐標 $x$ 和 $y$ 用對應網格的偏移歸一化到0-1之間；bounding box預測的寬高w和h用整幅圖像的寬高歸一化到0-1之間。
網絡中使用leaky ReLU替代ReLU。
在計算loss時，作者最初全部采用了平方和誤差（sum-squared loss）。
- 采用平方和誤差的原因是，它很容易優化。
- 然而，也存在幾個問題：
- 將分類誤差和定位誤差看做同等重要顯然是不靠譜的。
- 另外在一幅圖像中，大多數網格不含有任何對象。這會將這些單元格的置信率（confidence）推為0，由于數量眾多，很可能會掩蓋掉含有目標的單元格反向傳播回來的梯度。結果就是導致模型不穩定，甚至發散。
為了解決前面提到的問題，作者提出了以下方法：
更加重視定位的預測結果，給localization的loss部分賦予了更大的權重， $λcoord=5\lambda_{coord}=5$ 。
沒有對象的單元格得到的confidence的loss，沒有那么重要，就賦予較小的權重， $λnoobj?0.5\lambda_{noobj}-0.5$ 。
對于不同大小的box，如果是較大的box，預測得稍微偏了一點，影響不是很大，也基本看不出來；但如果是較小的box，預測得稍微偏一點，影響就比較大了，誤差也很明顯。為此，作者采用了一個比較投機取巧的辦法，那就是對width和height取平方根。
- 如下圖所示，可以看出，在 $y=xy=\sqrt{x}$ 上取兩個鄰近的點做差值。如果值比較小， $y=xy=\sqrt{x}$ 在較小的地方變化率相對更大，那么這個差值也會更大一些。這樣子反應到loss上，就是在較小的box上小偏差會造成更大的loss，而較大的box上小偏差得到的loss則沒那么大。
YOLO每個網格單元預測多個邊界框。在訓練時，每個目標我們只需要一個邊界框預測器來負責。我們指定一個預測器“負責”根據哪個預測與真實值之間具有當前最高的IOU來預測目標。這導致邊界框預測器之間的專業化。每個預測器可以更好地預測特定大小，方向角，或目標的類別，從而改善整體召回率。

loss函數完整形式：
- $1iobj\mathbb{1}_{i}^{obj}$ 表示目標是否出現在網格單元 $i$ 中， $1ijobj\mathbb{1}_{ij}^{obj}$ 表示網格單元 $i$ 中的第 $j$ 個邊界框預測器“負責”該預測。
- 這個loss中，只有當某個單元格中有對象的時候才會計入分類錯誤，即對分類錯誤進行懲罰。
- 只有當某個 box predictor 對某個 ground truth box 負責的時候，才會對 box 的 coordinate error 進行懲罰，而對哪個 ground truth box 負責就看其預測值和 ground truth box 的 IoU 是不是在那個 cell 的所有 box 中最大的。

2.5、推斷（測試）

對于每張圖片，使用如下評分公式獲取每個bounding box對應不同類的confidence結果，即class-specific confidence scores ：

$Pr(Class_i | Object) * Pr(Object) * IOU_{pred}^{truth} = Pr(Class_i) * IOU_{pred}^{truth}$

$Pr(Object) * IOU_{pred}^{truth}$ 就是每個bounding box的confidence。
$Pr(Class_i | Object)$ 為分類結果。
基于class-specific confidence scores設置閾值篩選bounding box，最后再使用非極大抑制（NMS）去除重疊的框。

2.6、資料推薦

從YOLOv1到YOLOv3，目標檢測的進化之路

YOLO論文翻譯——中文版

You Only Look Once: Unified, Real-Time Object Detection

《新程序員》：云原生和全面數字化實踐50位技術專家共同創作，文字、視頻、音頻交互閱讀

總結

以上是生活随笔為你收集整理的论文笔记：YOLO的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：论文笔记：PointSIFT
下一篇：论文笔记：Inception v1

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

编程问答

论文笔记：YOLO

YOLO

1、四個問題

2、論文概述