pads 文本不能修改_斜框检测经典网络(文本)- R2CNN
論文來源:2017CVPR
論文地址:https://arxiv.org/abs/1706.09579
論文代碼:https://github.com/DetectionTeamUCAS/R2CNN_Faster-RCNN_Tensorflow
PS:總結在最后。
文章出發點:
作者提出了一個叫做Rotational Region CNN(R2CNN)的方法,該方法可用于自然場景中任意方向的文本檢測。
貢獻:
方法:
在本文中,作者考慮到角度并不能很好地表達特殊的點,因而沒有采用角度信息。每個矩形框的標注包含5個值
,其中 是左上角點的坐標, 是順時針方向的第二個點, 表示最小傾斜矩陣的高度。R2CNN的網絡結構如下:Rotational Region CNN
本文采用了兩階段目標檢測方法,由區域提取和區域分類兩部分組成。
RPN for proposing axis-aligned boxes
使用RPN生成軸對齊的bounding box來包圍任意方向的文本。在軸對齊的box中文本會屬于下列情形之一:1.水平方向的文本;2.垂直方向的文本;3.軸對齊對角線方向的文本。RPN能夠生成面向任意文本的軸對齊框形式的文本區域。
為了解決小的場景文本的問題,在RPN中使用了更小尺寸的anchor,anchor的尺度為
。ROIPoolings of different pooled sizes
由于一些文本的寬度大于他們的高度,本文嘗試使用三種不同尺度的ROIPooling去捕捉更多的文本特征。池化后的特征進一步用于檢測。具體來說,本文添加了兩個池大小:11×3和3×11。
可以捕捉更多的水平特征,幫助檢測寬度遠遠大于高度的水平文本。 可以捕獲更多的垂直特征,對于高度遠大于寬度的垂直文本檢測很有用。Regression for text/non-text scores, axis-aligned boxes, and inclined minimum area boxes
在本文的方法中,在RPN之后,本文將RPN生成的候選區域分類為文本或非文本,改進了包含任意方向文本的軸對齊的bounding box,預測了傾斜的bounding box。每個傾斜的box都與一個軸對齊的box相關聯。盡管本文的檢測目標是傾斜的邊界框,但本文認為添加其他約束(軸對齊的邊界框)可以提高性能。
Inclined non-maximum suppression
傾斜的交并比。對于緊密相鄰的傾斜文本,正常的NMS可能會丟失一些文本,因為軸對齊框之間的IoU可能很高。但傾斜的NMS不會丟失文本,因為傾斜的IoU值低。
Training objective(Multi-task loss)
RPN的訓練loss與Faster R-CNN的一樣。
在每個候選區域的loss函數是文本/非文本分類loss和box回歸loss的和。box的回歸loss由兩部分組成:軸對齊box的loss和傾斜的最小區域box的loss。在每個候選區域上,多任務loss函數定義如下:
實驗:
Training Data
本文的訓練數據集包含1000個來自ICDAR 2015的附加場景文本圖片和2000個搜集到的文本圖片。收集到的場景文本圖片是不同于ICDAR 2015中的模糊文本的。為了支持任意面向場景的文本檢測,本文通過旋轉圖像來增強ICDAR 2015訓練數據集和我們自己的數據。在擴充之后,訓練數據由39000張圖片組成。
ICDAR 2015中的文本采用四個順時針方向的四邊形點坐標在單詞水平上進行標記。通過計算包圍四邊形的最小面積矩形,從四邊形中生成ground truth傾斜包圍box(矩形數據)。然后計算最小軸對齊邊框,該邊框將包圍文本作為ground truth軸對齊框。本文同樣對采集的圖像進行了類似的處理來生成ground truth數據。
Performance
本文在ICDAR 2015和ICDAR 2013兩個數據集上評估了模型的性能。評估指標遵循ICDAR Robust Reading Competition的標準,為精度、召回率和F-measure。檢測結果提交至競賽網站,并在網上獲得評比結果。
ICDAR 2015
該方法的召回率為79.68%,精密度為85.62%,F-measure為82.54%。
在實驗中,作者主要分析了軸對齊box回歸(
)、傾斜box回歸( )、anchor尺度、NMS以及不同尺度的ROIPoolings的影響。首先在ICDAR 2015上對所有模型進行單尺度測試;然后對R2CNN-3、R2CNN-4以及R2CNN-5進行了多尺度測試。實驗結果如下:
與其他方法的對比:
ICDAR 2013
ICDAR 2013測試數據集包含233張聚焦的場景文本圖像。圖片中的文字是水平的。由于我們可以估計軸向框和傾斜框,本文使用軸向框作為ICDAR 2013的輸出。和其他方法的比較結果如下:
這證明本文設計的方法對于水平文本檢測也有一定的優勢。
總結:
- 本文的方法是在Faster R-CNN的基礎上進行改進的,目的是完成傾斜文本的檢測。所設計的方法對Faster R-CNN的主體結構并沒有太大的修改,該方法也可以換用其他的baseline,比如SSD和YOLO,對其他的檢測框架有較強的適用性。
- 在其他斜框檢測方法中,一般都是引入了角度信息,而作者引入的是相鄰兩點坐標以及矩陣的高,這樣可以在一定程度上解決如-90°與90°混淆的問題,有利于文本識別的使用。
- 從實驗結果上來看,R2CNN對傾斜和水平的文本檢測都表現出了不錯的優勢,在對傾斜文本框進行檢測時,數據集是對水平文本進行人為旋轉構建的,與實際傾斜場景可能有些區別。
總結
以上是生活随笔為你收集整理的pads 文本不能修改_斜框检测经典网络(文本)- R2CNN的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 获取按钮点击次数_无限次数使用,不会吧?
- 下一篇: python网页表格读取_是否可以读取网