Attention-OCR(Attention-based Extraction of Structured Information from Street View Imagery)
Attention OCR 歷史意義: 開創(chuàng)了基于attention機(jī)制建模OCR問題的先河。
本文主要結(jié)構(gòu)如下:
一、Abstract
? ? ? ?介紹提出attention-based OCR模型的優(yōu)勢
1. 論文提出基于attention模型取得更高的準(zhǔn)確率
2. 模型結(jié)構(gòu)簡單,通用性更高
3.充足的實(shí)驗(yàn)給出有效結(jié)論
二、Introduction
? ? ? ?介紹當(dāng)前OCR領(lǐng)域研究的主流方法,分別有不同的缺點(diǎn),文末提出模型優(yōu)點(diǎn)及創(chuàng)新
三、The Proposed Network Architecture
? ? ? ?提出OCR模型分模塊介紹,包括CNN layer、RNN layer、Spatial attention layer、多視點(diǎn)操作、訓(xùn)練
模型主要結(jié)構(gòu)如圖1所示: 首先經(jīng)過一個(gè)CNN layer提取圖像特征,然后通過attention特征輸入到RNN中
CNN layer: 本文采取三種CNN模型,主要有inception-v2、inception-v3以及inception-resnet-v2, 圖像模型提取后的特征用fijc來表示,i,j表示圖像上的位置,c表示channel的索引
RNN layer:?
? ? ?1. Ut,c 表示at權(quán)重值和圖片的特征值對(duì)應(yīng)相乘加和
? ? ?2. t時(shí)刻RNN模型的輸入xt表示t-1時(shí)刻字符的one-hot索引值 與 參數(shù)矩陣 對(duì)應(yīng)相乘 ? t-1時(shí)刻的Ut-1,c與 參數(shù)矩陣的乘積(下面公式2)
? ? ? 3. RNN模型的輸入: xt 以及RNN模型t-1時(shí)刻的輸出
? ? ? 4. RNN模型的輸出: Ot, St
? ? ? 5. 將Ot和Ut乘參數(shù)矩陣通過一個(gè)softmax得到Ot', 最后獲取每個(gè)字符的概率值,值最大的表示label
Spatial attention: 主要是將channel的i和j位置向量onehot加入到輸入tanh函數(shù)中(local aware attention)
四、Dataset
? ? ? ? 主要介紹兩種數(shù)據(jù)集-FSNS Dataset、Google Street View?
五、Experiment
? ? ? ? 統(tǒng)領(lǐng)全文、再次重申提出的attention模型優(yōu)勢,實(shí)驗(yàn)結(jié)果表明使用location aware attention可以提升9個(gè)百分點(diǎn),并且證明了特征提取網(wǎng)絡(luò)深度對(duì)準(zhǔn)確率的影響,最后進(jìn)行錯(cuò)誤分析以及可視化展示
六、Conclusion
? ? ? ? 結(jié)論及展望
?關(guān)鍵點(diǎn):?
? ? ? ? 1. 特征提取: CNN
? ? ? ? 2. 語言模型: RNN
? ? ? ? 3. 自回歸: Attention
創(chuàng)新點(diǎn):
? ? ? ? 1. 基于Attention機(jī)制實(shí)現(xiàn)OCR模型
? ? ? ? 2. 模型自回歸
其發(fā)點(diǎn):
? ? ? ? 對(duì)于圖像特征提取而言,網(wǎng)絡(luò)深度不是越深越好,過于深反而會(huì)引入噪音
七、Code
? ? ??https://github.com/tensorflow/models/tree/master/research/attention_ocr
總結(jié)
以上是生活随笔為你收集整理的Attention-OCR(Attention-based Extraction of Structured Information from Street View Imagery)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Leetcode 101.对称二叉树 (
- 下一篇: Leetcode 94.二叉树的中序遍历