當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

pixel-anchor 相关概念

發布時間：2024/1/8 编程问答 32 豆豆

生活随笔收集整理的這篇文章主要介紹了 pixel-anchor 相关概念小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Pixel-Anchor原文：添加鏈接描述
引用：添加鏈接描述
數據集：添加鏈接描述
對于數據增強，統一從圖片中裁剪640*640的樣本來形成大小為32的mini-batch。在ImageNet數據集訓練的模型作為預訓練模型。SynthText數據集包括800k合成的文本圖像，用來預訓練模型，然后在每個基準數據集繼續訓練對應的圖像。對于每個數據集，在第一階段訓練時，初始lr設置為0.0001，然后在第二階段訓練減到0.00001。
首先用公共數據集SynthText和自己的數據集來得到模型的特征，然后在兩個具有挑戰性的公共基準來評估：ICDAR 2015 和ICDAR 2017 MLT。
Pixel-based:
1、FPN: 特征金字塔網絡
2、ASPP: 空洞空間金字塔pooling
Anchor-based:
1、SSD: 添加鏈接描述
2、APL: 自適應預測層

該層分別為不同的卷積核搭配不同的寬高比錨，以適應不同尺度、不同角度的文本。主要分為以下5類：
a)、正方形anchors：寬高比=1:1，卷積濾波器大小為3x3，主要為了檢測方正規整的文字；
b)、中等水平anchors：寬高比={1:2,1:3,1:5,1:7}，卷積濾波器大小為3x5，主要為了檢測水平傾斜的文字；
c)、中等垂直anchors：寬高比={2:1,3:1,5:1,7:1}，卷積濾波器大小為5x3，主要為了檢測垂直傾斜的文字；
d)、長的水平anchors：寬高比={1:15,1:25,1:35}，卷積濾波器大小為1xn，主要為了檢測水平長行的文字；
e)、長的垂直anchors：寬高比={15:1,25:1,35:1}，卷積濾波器大小為nx1，主要為了檢測豎排長行的文字。
3、Textboxes++ ：添加鏈接描述
4、The Anchor Matching Dilemma:

Pixel-Anchor 框架：
從ResNet-50主干網絡中提取1/4、1/8、和1/16的特征圖，在pixel-based模塊和anchor-based模塊共享。在pixel-based模塊的分割熱力圖，根據anchor級別的注意力機制提供給anchor-based模塊。在inference階段，沒有復雜的后處理，除了包括一個有效的融合NMS。
pixel-based模塊：
FPN和ASPP操作組合在一起作為編碼-解碼結構，同時修改了ASPP的膨脹率，用{3, 6, 9, 12, 15, 18}替換了DeepLabv3+中的{6, 12, 18}來獲得更好的感受野。在解碼階段，編碼特征首先用因子為2倍雙線性插值進行上采樣，然后和來自網絡主干的相應低一級的特征拼接concat。解碼特征圖同時保留了高的空間分辨率以及語義信息。

分類Loss:
設負正樣本的比例為3:1, Ωa表示用于分類訓練的anchor集合（負樣本和正樣本):

這里| ? |是在這個集合中正樣本的數量，H(pi, pi*)表示第i個anchor標簽預測值pi和它的gt標簽值pi之間的交叉熵。
anchors的預測文本四邊形坐標偏移量的回歸loss如公式：

這里pos(Ωa) 是Ωa的正樣本部分， SL(li, li)表示對于第i個anchor，預測偏移坐標li和ground truth li*之間的smooth L1 loss。
對于anchor-based模塊，loss可以表示為：

αa是平衡分類loss和定位loss的權值，在實驗中為了快速收斂設為了0.2。

訓練階段：
整個網絡是用adam優化器來端對端訓練的，模型的loss可以表示為：

αall是平衡pixel-based loss和anchor-based loss的權值，在實驗中設為3。

推理階段：
提出融合NMS來獲得最終的檢測結果，用anchor-based模塊檢測小文本和長文本，用pixel-based模塊檢測中等大小的文本。
在anchor-based模塊的APL中，對anchors進行修剪。1/4特征圖上的所有anchors和在其他特征圖上的所有長anchors都被保留下來。因為在1/4特征圖上的anchors（一般都是小尺寸的）通常沒有足夠的空間來包含兩個大角度的文本實例，同時長的anchors僅僅可以匹配小角度的文本實例，這樣“Anchor Matching Dilemma”就會更少發生。

檢測小場景文本的能力：
在SynthText 數據集上進行實驗，圖片的分辨率都被resize到384384，保留高寬比，pad短邊，隨機選擇4k張圖作為驗證集。
檢測密集大角度文本的能力：
對比了Pixel-Anchor和anchor-based方法在檢測密集大角度文本上的性能。
檢測長文本行的能力：
為了說明提出的APL可以有效的檢測長文本行，用海報數據集測試了Pixel-Anchor，該數據集包括大量長的橫跨圖片的中文文本行。收集標定了5000張圖，選擇4000張作為訓練集，1000張作為驗證集。在海報數據集中，對于768768分辨率的圖片，獲得0.88的F-measure。

ASPP: 是一種增加感受野的方法

空洞卷積多了一個稱之為 dilation rate 的參數，指的是kernel的間隔數量(一般的卷積 dilation rate=1），采樣率（dilation rate）并不是越大越好，因為采樣率太大，會導致濾波器有的會跑到padding上，產生無意義的權重，因此要選擇合適的采樣率
實現空洞卷積：
第一個是通過插入空洞(零)來隱含地對濾波器進行上采樣，或等效稀疏地對輸入特征圖進行采樣。通過向im2col函數(從多通道特征圖中提取矢量化塊)添加稀疏采樣底層特征圖實現了這一點。
第二種方法，用一個等于空洞卷積率 r 等效的因子對輸入特征圖下采樣，對于每一個r×r的移位，都對其進行去交織以產生 r^2 大小的的分辨率映射。然后將標準卷積應用于這些中間特征圖，并隔行掃描生成原始圖像分辨率。通過將多孔卷積變換為常規卷積，可以使用現成的高度優化的卷積方法，已經在TensorFlow框架中實現了第二種方法。

總結

以上是生活随笔為你收集整理的pixel-anchor 相关概念的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：玩转Qml(12)-再谈动态国际化
下一篇：我的折腾日记-- Ubuntu 16.0

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

编程问答

pixel-anchor 相关概念

總結