pixel-anchor 相关概念
Pixel-Anchor原文:添加鏈接描述
引用:添加鏈接描述
數據集:添加鏈接描述
對于數據增強,統一從圖片中裁剪640*640的樣本來形成大小為32的mini-batch。在ImageNet數據集訓練的模型作為預訓練模型。SynthText數據集包括800k合成的文本圖像,用來預訓練模型,然后在每個基準數據集繼續訓練對應的圖像。對于每個數據集,在第一階段訓練時,初始lr設置為0.0001,然后在第二階段訓練減到0.00001。
首先用公共數據集SynthText和自己的數據集來得到模型的特征,然后在兩個具有挑戰性的公共基準來評估:ICDAR 2015 和ICDAR 2017 MLT。
Pixel-based:
1、FPN: 特征金字塔網絡
2、ASPP: 空洞空間金字塔pooling
Anchor-based:
1、SSD: 添加鏈接描述
2、APL: 自適應預測層
該層分別為不同的卷積核搭配不同的寬高比錨,以適應不同尺度、不同角度的文本。主要分為以下5類:
a)、正方形anchors:寬高比=1:1,卷積濾波器大小為3x3,主要為了檢測方正規整的文字;
b)、中等水平anchors:寬高比={1:2,1:3,1:5,1:7},卷積濾波器大小為3x5,主要為了檢測水平傾斜的文字;
c)、中等垂直anchors:寬高比={2:1,3:1,5:1,7:1},卷積濾波器大小為5x3,主要為了檢測垂直傾斜的文字;
d)、長的水平anchors:寬高比={1:15,1:25,1:35},卷積濾波器大小為1xn,主要為了檢測水平長行的文字;
e)、長的垂直anchors:寬高比={15:1,25:1,35:1},卷積濾波器大小為nx1,主要為了檢測豎排長行的文字。
3、Textboxes++ :添加鏈接描述
4、The Anchor Matching Dilemma:
Pixel-Anchor 框架:
從ResNet-50主干網絡中提取1/4、1/8、和1/16的特征圖,在pixel-based模塊和anchor-based模塊共享。在pixel-based模塊的分割熱力圖,根據anchor級別的注意力機制提供給anchor-based模塊。在inference階段,沒有復雜的后處理,除了包括一個有效的融合NMS。
pixel-based模塊:
FPN和ASPP操作組合在一起作為編碼-解碼結構,同時修改了ASPP的膨脹率,用{3, 6, 9, 12, 15, 18}替換了DeepLabv3+中的{6, 12, 18}來獲得更好的感受野。在解碼階段,編碼特征首先用因子為2倍雙線性插值進行上采樣,然后和來自網絡主干的相應低一級的特征拼接concat。解碼特征圖同時保留了高的空間分辨率以及語義信息。
分類Loss:
設負正樣本的比例為3:1, Ωa表示用于分類訓練的anchor集合(負樣本和正樣本):
這里| ? |是在這個集合中正樣本的數量,H(pi, pi*)表示第i個anchor標簽預測值pi和它的gt標簽值pi之間的交叉熵。
anchors的預測文本四邊形坐標偏移量的回歸loss如公式:
這里pos(Ωa) 是Ωa的正樣本部分, SL(li, li)表示對于第i個anchor,預測偏移坐標li和ground truth li*之間的smooth L1 loss。
對于anchor-based模塊,loss可以表示為:
αa是平衡分類loss和定位loss的權值,在實驗中為了快速收斂設為了0.2。
訓練階段:
整個網絡是用adam優化器來端對端訓練的,模型的loss可以表示為:
αall是平衡pixel-based loss和anchor-based loss的權值,在實驗中設為3。
推理階段:
提出融合NMS來獲得最終的檢測結果,用anchor-based模塊檢測小文本和長文本,用pixel-based模塊檢測中等大小的文本。
在anchor-based模塊的APL中,對anchors進行修剪。1/4特征圖上的所有anchors和在其他特征圖上的所有長anchors都被保留下來。因為在1/4特征圖上的anchors(一般都是小尺寸的)通常沒有足夠的空間來包含兩個大角度的文本實例,同時長的anchors僅僅可以匹配小角度的文本實例,這樣“Anchor Matching Dilemma”就會更少發生。
檢測小場景文本的能力:
在SynthText 數據集上進行實驗,圖片的分辨率都被resize到384384,保留高寬比,pad短邊,隨機選擇4k張圖作為驗證集。
檢測密集大角度文本的能力:
對比了Pixel-Anchor和anchor-based方法在檢測密集大角度文本上的性能。
檢測長文本行的能力:
為了說明提出的APL可以有效的檢測長文本行,用海報數據集測試了Pixel-Anchor,該數據集包括大量長的橫跨圖片的中文文本行。收集標定了5000張圖,選擇4000張作為訓練集,1000張作為驗證集。在海報數據集中,對于768768分辨率的圖片,獲得0.88的F-measure。
ASPP: 是一種增加感受野的方法
空洞卷積多了一個稱之為 dilation rate 的參數,指的是kernel的間隔數量(一般的卷積 dilation rate=1),采樣率(dilation rate)并不是越大越好,因為采樣率太大,會導致濾波器有的會跑到padding上,產生無意義的權重,因此要選擇合適的采樣率
實現空洞卷積:
第一個是通過插入空洞(零)來隱含地對濾波器進行上采樣,或等效稀疏地對輸入特征圖進行采樣。通過向im2col函數(從多通道特征圖中提取矢量化塊)添加稀疏采樣底層特征圖實現了這一點。
第二種方法,用一個等于空洞卷積率 r 等效的因子對輸入特征圖下采樣,對于每一個r×r的移位,都對其進行去交織以產生 r^2 大小的的分辨率映射。然后將標準卷積應用于這些中間特征圖,并隔行掃描生成原始圖像分辨率。通過將多孔卷積變換為常規卷積,可以使用現成的高度優化的卷積方法,已經在TensorFlow框架中實現了第二種方法。
總結
以上是生活随笔為你收集整理的pixel-anchor 相关概念的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 玩转Qml(12)-再谈动态国际化
- 下一篇: 我的折腾日记-- Ubuntu 16.0