OCR入门教程系列(一):OCR基础导论
👨?💻作者簡(jiǎn)介: 大數(shù)據(jù)專業(yè)碩士在讀,CSDN人工智能領(lǐng)域博客專家,阿里云專家博主,專注大數(shù)據(jù)與人工智能知識(shí)分享。公眾號(hào): GoAI的學(xué)習(xí)小屋,免費(fèi)分享書(shū)籍、簡(jiǎn)歷、導(dǎo)圖等資料,更有交流群分享AI和大數(shù)據(jù),加群方式公眾號(hào)回復(fù)“加群”或??點(diǎn)擊鏈接。
 🎉專欄推薦: 目前在寫(xiě)一個(gè)CV方向?qū)?#xff0c;后期會(huì)更新不限于深度學(xué)習(xí)、OCR、目標(biāo)檢測(cè)、圖像分類、圖像分割等方向,目前活動(dòng)僅19.9,雖然付費(fèi)但會(huì)長(zhǎng)期更新且價(jià)格便宜,感興趣的小伙伴可以關(guān)注下,有擅長(zhǎng)CV的大佬可以聯(lián)系我合作一起寫(xiě)。??專欄地址
 🎉學(xué)習(xí)者福利: 強(qiáng)烈推薦一個(gè)優(yōu)秀AI學(xué)習(xí)網(wǎng)站,包括機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等理論與實(shí)戰(zhàn)教程,非常適合AI學(xué)習(xí)者。??網(wǎng)站鏈接。
 🎉技術(shù)控福利: 程序員兼職社區(qū)招募!技術(shù)范圍廣,CV、NLP方向均可,要求有一定基礎(chǔ),最好是研究生及以上或有工作經(jīng)驗(yàn),歡迎大佬加入!群內(nèi)Python、c++、Matlab等各類編程語(yǔ)言單應(yīng)有盡有, 資源靠譜、費(fèi)用自談,有意向者直接??訪問(wèn)。
📝OCR專欄導(dǎo)讀:
本專欄為付費(fèi)專欄,主要介紹計(jì)算機(jī)視覺(jué)領(lǐng)域OCR文字識(shí)別領(lǐng)域技術(shù)發(fā)展方向,將分章節(jié)從OCR技術(shù)發(fā)展、概念、算法、論文、數(shù)據(jù)集、現(xiàn)有平臺(tái)及未來(lái)發(fā)展方向等各種角度展開(kāi)詳細(xì)介紹,綜合基礎(chǔ)與實(shí)戰(zhàn)知識(shí)。
 以下是本系列目錄,分為前置篇、基礎(chǔ)篇與進(jìn)階篇,進(jìn)階篇在基礎(chǔ)篇基礎(chǔ)上進(jìn)行全面總結(jié),會(huì)針對(duì)最經(jīng)典論文及最新算法展開(kāi)講解,內(nèi)容目前包括不限于文字檢測(cè)、識(shí)別、表格分析等方向。 未來(lái)看情況更新NLP方向知識(shí),本專欄目前主要面向深度學(xué)習(xí)及CV的同學(xué)學(xué)習(xí),希望能夠大家訂閱交流,如有錯(cuò)誤請(qǐng)大家在評(píng)論區(qū)指正,如有侵權(quán)聯(lián)系刪除。
🍀歡迎大家加入文章最上方交流群,群內(nèi)將分享更多大數(shù)據(jù)與人工智能方向知識(shí)資料,會(huì)有一些學(xué)習(xí)及其他福利!
?前置:深度學(xué)習(xí)基礎(chǔ)系列
1??深入淺出OCR前置篇 【機(jī)器學(xué)習(xí)概念總結(jié)】
 2??深入淺出OCR前置篇 【深度學(xué)習(xí)概念總結(jié)】
 3??深入淺出OCR前置篇 【卷積神經(jīng)網(wǎng)絡(luò)總結(jié)】
 4??深入淺出OCR前置篇 【循環(huán)神經(jīng)網(wǎng)絡(luò)總結(jié)】
 5??深入淺出OCR前置篇 【注意力機(jī)制系列總結(jié)】
 6??深入淺出OCR前置篇 【OpenCV系列總結(jié)】
📝基礎(chǔ):OCR入門(mén)教程系列目錄
1??OCR系列第一章 【OCR技術(shù)導(dǎo)論】:OCR文字識(shí)別技術(shù)總結(jié)(一) [試讀]
 2??OCR系列第二章 【OCR基礎(chǔ)介紹】:OCR文字識(shí)別技術(shù)總結(jié)(二)
 3??OCR系列第三章 【文字檢測(cè)技術(shù)】:OCR文字識(shí)別技術(shù)總結(jié)(三)
 4??OCR系列第四章 【文字識(shí)別技術(shù)】:OCR文字識(shí)別技術(shù)總結(jié)(四)
 5??OCR系列第五章 【實(shí)戰(zhàn)代碼解析】:OCR文字識(shí)別技術(shù)總結(jié)(五)
📝進(jìn)階:深入淺出OCR系列目錄
🍀目錄導(dǎo)圖版本:
 
注:以上系列將繼續(xù)更新及完善,非最終版本!后續(xù)更新內(nèi)容包括不限于文字檢測(cè)、文件識(shí)別、表格識(shí)別、版面分析、糾錯(cuò)及結(jié)構(gòu)化、部署及實(shí)戰(zhàn)等方面內(nèi)容,歡迎大家訂閱該專欄! [ 歡迎入群交流,群內(nèi)將分享更多大數(shù)據(jù)與人工智能方向知識(shí)。]
📝OCR領(lǐng)域經(jīng)典論文匯總:
1??OCR文字識(shí)別經(jīng)典論文詳解 [試讀]
 2??OCR文字識(shí)別方法綜述
 3??場(chǎng)景識(shí)別文字識(shí)別綜述(待更新)
 4??文字檢測(cè)方法綜述(待更新)
📝OCR領(lǐng)域論文詳解系列:
1??CRNN:CRNN文字識(shí)別 [試讀]
 2??ASTER:ASTER文本識(shí)別詳解
🆙目前在整理階段,后續(xù)會(huì)更新其他文字檢測(cè)與識(shí)別方向論文解讀。
📝OCR項(xiàng)目實(shí)戰(zhàn)系列:
🍀參考《深入淺出OCR》目錄
 
注:更多實(shí)戰(zhàn)項(xiàng)目敬請(qǐng)期待,詳細(xì)介紹可以參考本系列其他文章,每個(gè)系列對(duì)應(yīng)部分會(huì)陸續(xù)更新,歡迎大家交流訂閱!!
一、OCR概念及發(fā)展
OCR (Optical Character Recognition,光學(xué)字符識(shí)別)是指電子設(shè)備(例如掃描儀或數(shù)碼相機(jī))檢查紙上打印的字符,經(jīng)過(guò)檢測(cè)暗、亮的模式肯定其形狀,而后用字符識(shí)別方法將形狀翻譯成計(jì)算機(jī)文字的過(guò)程;即,針對(duì)印刷體字符,采用光學(xué)的方式將紙質(zhì)文檔中的文字轉(zhuǎn)換成為黑白點(diǎn)陣的圖像文件,并經(jīng)過(guò)識(shí)別軟件將圖像中的文字轉(zhuǎn)換成文本格式,供文字處理軟件進(jìn)一步編輯加工的技術(shù)。如何除錯(cuò)或利用輔助信息提升識(shí)別正確率,是OCR最重要的課題,ICR(Intelligent Character Recognition)的名詞也隨之產(chǎn)生。
簡(jiǎn)單來(lái)說(shuō),OCR識(shí)別就是光學(xué)文字識(shí)別,是指通過(guò)圖像處理和模式識(shí)別技術(shù)對(duì)光學(xué)的字符進(jìn)行識(shí)別。**它是計(jì)算機(jī)視覺(jué)研究領(lǐng)域的分支之一,是計(jì)算機(jī)科學(xué)的重要組成部分。衡量一個(gè)OCR系統(tǒng)性能好壞的主要指標(biāo)有:拒識(shí)率、誤識(shí)率、識(shí)別速度、用戶界面的友好性,產(chǎn)品的穩(wěn)定性,易用性及可行性等。
二、OCR發(fā)展
 OCR的概念是在1929年由德國(guó)科學(xué)家Tausheck最早提出來(lái)的,后來(lái)美國(guó)科學(xué)家Handel也提出了利用技術(shù)對(duì)文字進(jìn)行識(shí)別的想法。而最先對(duì)印刷體漢字識(shí)別進(jìn)行研究的是IBM公司的Casey和Nagy,1966年他們發(fā)表了第一篇關(guān)于漢字識(shí)別的文章,采用了模板匹配法識(shí)別了1000個(gè)印刷體漢字。
 早在60、70年代,世界各國(guó)就開(kāi)始有OCR的研究,而研究的初期,多以文字的識(shí)別方法研究為主,且識(shí)別的文字僅為0至9的數(shù)字。以一樣擁有方塊文字的日本為例,1960年左右開(kāi)始研究OCR的基本識(shí)別理論,初期以數(shù)字為對(duì)象,直至1965至1970年之間開(kāi)始有一些簡(jiǎn)單的產(chǎn)品,如印刷文字的郵政編碼識(shí)別系統(tǒng),識(shí)別郵件上的郵政編碼,幫助郵局做區(qū)域分信的做業(yè);也所以至今郵政編碼一直是各國(guó)所倡導(dǎo)的地址書(shū)寫(xiě)方式。
 20世紀(jì)70年代初,日本的學(xué)者開(kāi)始研究漢字識(shí)別,并作了大量的工做。中國(guó)在OCR技術(shù)方面的研究工做起步較晚,在70年代才開(kāi)始對(duì)數(shù)字、英文字母及符號(hào)的識(shí)別進(jìn)行研究,70年代末開(kāi)始進(jìn)行漢字識(shí)別的研究,到1986年,我國(guó)提出“863”高新科技研究計(jì)劃,漢字識(shí)別的研究進(jìn)入一個(gè)實(shí)質(zhì)性的階段,清華大學(xué)的丁曉青教授和中科院分別開(kāi)發(fā)研究,相繼推出了中文OCR產(chǎn)品,現(xiàn)為中國(guó)最領(lǐng)先漢字OCR技術(shù)。早期的OCR軟件,因?yàn)樽R(shí)別率及產(chǎn)品化等多方面的因素,未能達(dá)到實(shí)際要求。同時(shí),因?yàn)橛布O(shè)備成本高,運(yùn)行速度慢,也沒(méi)有達(dá)到實(shí)用的程度。只有個(gè)別部門(mén),如信息部門(mén)、新聞出版單位等使用OCR軟件。進(jìn)入20世紀(jì)90年代之后,隨著平臺(tái)式掃描儀的普遍應(yīng)用,以及我國(guó)信息自動(dòng)化和辦公自動(dòng)化的普及,大大推進(jìn)了OCR技術(shù)的進(jìn)一步發(fā)展,使OCR的識(shí)別正確率、識(shí)別速度知足了廣大用戶的要求。
 
三、OCR的應(yīng)用場(chǎng)景
根據(jù)OCR的應(yīng)用場(chǎng)景而言,我們可以大致分成識(shí)別特定場(chǎng)景下的專用OCR以及識(shí)別多種場(chǎng)景下的通用OCR。就前者而言,證件識(shí)別以及車牌識(shí)別就是專用OCR的典型案例。針對(duì)特定場(chǎng)景進(jìn)行設(shè)計(jì)、優(yōu)化以達(dá)到最好的特定場(chǎng)景下的效果展示。那通用的OCR就是使用在更多、更復(fù)雜的場(chǎng)景下,擁有比較好的泛性。在這個(gè)過(guò)程中由于場(chǎng)景的不確定性,比如:圖片背景極其豐富、亮度不均衡、光照不均衡、殘缺遮擋、文字扭曲、字體多樣等等問(wèn)題,會(huì)帶來(lái)極大的挑戰(zhàn)。
文檔文字識(shí)別:可以將圖書(shū)館、報(bào)社、博物館、檔案館等的紙質(zhì)版圖書(shū)、報(bào)紙、雜志、歷史文獻(xiàn)檔案資料等進(jìn)行電子化管理,實(shí)現(xiàn)精準(zhǔn)地保存文獻(xiàn)資料。
自然場(chǎng)景文字識(shí)別:識(shí)別自然場(chǎng)景圖像中的文字信息如車牌、廣告干詞、路牌等信息。對(duì)車輛進(jìn)行識(shí)別可以實(shí)現(xiàn)停車場(chǎng)收費(fèi)管理、交通流量控制指標(biāo)測(cè)量、車輛定位、防盜、高速公路超速自動(dòng)化監(jiān)管等功能。
票據(jù)文字識(shí)別:可以對(duì)增值稅發(fā)票、報(bào)銷單、車票等不同格式的票據(jù)進(jìn)行文字識(shí)別,可以避免財(cái)務(wù)人員手動(dòng)輸入大量票據(jù)信息,如今已廣泛應(yīng)用于財(cái)務(wù)管理、銀行、金融等眾多領(lǐng)域。。
證件識(shí)別:可以快速識(shí)別身份證、銀行卡、駕駛證等卡證類信息,將證件文字信息直接轉(zhuǎn)換為可編輯文本,可以大大提高工作效率、減少人工成本、還可以實(shí)時(shí)進(jìn)行相關(guān)人員的身份核驗(yàn),以便安全管理。
 
OCR生態(tài):
四、OCR的技術(shù)路線
典型的OCR技術(shù)路線如下圖所示:
其中OCR識(shí)別的關(guān)鍵路徑在于文字檢測(cè)和文本識(shí)別部分,這也是深度學(xué)習(xí)技術(shù)可以充分發(fā)揮功效的地方。
 
1.傳統(tǒng)OCR技術(shù)流程:
1、水平投影垂直投影
2、模板匹配
3、查找輪廓findcontours
 
 傳統(tǒng)的光學(xué)字符識(shí)別過(guò)程為:圖像預(yù)處理(彩色圖像灰度化、二值化處理、圖像變化角度檢測(cè)、矯正處理等)、版面劃分(直線檢測(cè)、傾斜檢測(cè))、字符定位切分、字符識(shí)別、版面恢復(fù)、后處理、校對(duì)等。
 
2.深度學(xué)習(xí)OCR技術(shù)流程:
深度學(xué)習(xí)圖像文字識(shí)別流程包括:輸入圖像、深度學(xué)習(xí)文字區(qū)域檢測(cè)、預(yù)處理、特征提取、深度學(xué)習(xí)識(shí)別器、深度學(xué)習(xí)后處理等。
 
 現(xiàn)有多數(shù)深度學(xué)習(xí)識(shí)別算法具體流程包括圖像校正、特征提取、序列預(yù)測(cè)等模塊,流程如圖所示:
 
五、場(chǎng)景文字檢測(cè)與識(shí)別方法
注:此篇僅做概括介紹,后續(xù)文章會(huì)對(duì)重點(diǎn)方法進(jìn)行詳細(xì)展開(kāi)介紹!
1.場(chǎng)景文字檢測(cè)方法:
2.場(chǎng)景文字識(shí)別方法:
3.端到端自然場(chǎng)景檢測(cè)和識(shí)別方法:
六、常用文字檢測(cè)框架介紹:
1、DBNet
官方論文:Real-time Scene Text Detection with Differentiable Binarization
 參考代碼:DBNet
首先,DB是一種基于分割的文本檢測(cè)算法。在各種文本檢測(cè)算法中,基于分割的檢測(cè)算法可以更好地處理彎曲等不規(guī)則形狀文本,因此往往能取得更好的檢測(cè)效果。但分割法后處理步驟中將分割結(jié)果轉(zhuǎn)化為檢測(cè)框的流程復(fù)雜,耗時(shí)嚴(yán)重。因此作者提出一個(gè)可微的二值化模塊(Differentiable Binarization,簡(jiǎn)稱DB),將二值化閾值加入訓(xùn)練中學(xué)習(xí),可以獲得更準(zhǔn)確的檢測(cè)邊界,從而簡(jiǎn)化后處理流程。DB算法最終在5個(gè)數(shù)據(jù)集上達(dá)到了state-of-art的效果和性能。
- 主要思想:先獲取圖像中的文本區(qū)域,再利用opencv、polygon等后處理得到文本區(qū)域的最小包圍曲線;
- DB提出可微分閾值,通過(guò)一個(gè)近似于階躍函數(shù)的二值化函數(shù)使得分割網(wǎng)絡(luò)在訓(xùn)練時(shí)學(xué)習(xí)文本分割的動(dòng)態(tài)閾值,使模型提升精度,簡(jiǎn)化后處理;
- DB的backbone時(shí)典型的FCN結(jié)構(gòu),由多層上采樣和下采樣的特征圖concat完成。
 
2、CTPN
官方論文: Detecting Text in Natural Image with Connectionist Text Proposal Network
 參考代碼:https://github.com/eragonruan/text-detection-ctpn
CTPN模型主要包括三個(gè)部分,分別是卷積層、Bi-LSTM層、全連接層,其結(jié)構(gòu)如下圖所示。
 
- 在卷積層部分,CTPN選取VGG16模型前5個(gè)conv5= stage得到feature maps作為圖像最后的特征,假設(shè)此時(shí)feature maps的尺寸為 W *H * C;
- 由于文本之間存在序列關(guān)系,因此,作者引入了遞歸神經(jīng)網(wǎng)絡(luò),采用的是一層Bi-LSTM層,作者發(fā)現(xiàn)引入了遞歸神經(jīng)網(wǎng)絡(luò)對(duì)文本檢測(cè)的效果有一個(gè)很大的提升,如下圖所示,第一行是不采用遞歸神經(jīng)網(wǎng)絡(luò)的效果,第二行是采用了Bi-LSTM后的效果。具體的做法是采用一個(gè)的滑動(dòng)窗口,提取feature
 maps上每個(gè)點(diǎn)周圍的區(qū)域作為該點(diǎn)的特征向量表示,此時(shí),圖像的尺度變?yōu)?#xff0c;然后將每一行作為序列的長(zhǎng)度,高度作為batch_size,傳入一個(gè)128維的Bi-LSTM,得到Bi-LSTM層的輸出為;
- 將Bi-LSTM的輸出接入全連接層,在這一部分,作者引入了anchor的機(jī)制,即對(duì)每一個(gè)點(diǎn)用k個(gè)anchor進(jìn)行預(yù)測(cè),每個(gè)anchor就是一個(gè)盒子,其高度由[273,390,…,11]逐漸遞減,每次除以0.7,總共有10個(gè)。作者采用的是三個(gè)全連接層分支。
 
3、EAST
官方論文: EAST: An Efficient and Accurate Scene Text Detector
 參考代碼:https://github.com/argman/EAST
論文的思想非常簡(jiǎn)單,結(jié)合了DenseBox和Unet網(wǎng)絡(luò)中的特性,具體流程如下:
- 先用一個(gè)通用的網(wǎng)絡(luò)(論文中采用的是Pvanet,實(shí)際在使用的時(shí)候可以采用VGG16,Resnet等)作為base net ,用于特征提取
- 基于上述主干特征提取網(wǎng)絡(luò),抽取不同level的feature map,它們的尺寸分別是 WHC,這樣可以得到不同尺度的特征圖.目的是解決文本行尺度變換劇烈的問(wèn)題,ealy stage可用于預(yù)測(cè)小的文本行,late-stage可用于預(yù)測(cè)大的文本行.
- 特征合并層,將抽取的特征進(jìn)行merge.這里合并的規(guī)則采用了U-net的方法,合并規(guī)則:從特征提取網(wǎng)絡(luò)的頂部特征按照相應(yīng)的規(guī)則向下進(jìn)行合并,這里描述可能不太好理解,具體參見(jiàn)下述的網(wǎng)絡(luò)結(jié)構(gòu)圖
- 網(wǎng)絡(luò)輸出層,包含文本得分和文本形狀.根據(jù)不同文本形狀(可分為RBOX和QUAD),輸出也各不相同,具體參看網(wǎng)絡(luò)結(jié)構(gòu)圖。
 
注:上述僅列舉幾個(gè)簡(jiǎn)單常見(jiàn)算法簡(jiǎn)介,文字檢測(cè)與文字識(shí)別詳細(xì)介紹、其他常見(jiàn)和最新算法見(jiàn)后續(xù)系列文章(持續(xù)補(bǔ)充)!
七、常用文字識(shí)別框架介紹:
常見(jiàn)文本識(shí)別的算法可分為基于CTC技術(shù)的方法和基于注意力機(jī)制的網(wǎng)絡(luò)模型兩大類。
-  CTC技術(shù)可以有效地捕獲輸入序列的上下文依賴關(guān)系,同時(shí)能夠很好地解決圖像和文本字符對(duì)齊的問(wèn)題,但在自由度較大的手寫(xiě)場(chǎng)景下仍會(huì)出現(xiàn)識(shí)別錯(cuò)誤。 
-  注意力機(jī)制主要應(yīng)用于卷積神經(jīng)網(wǎng)絡(luò)特征權(quán)重的分配上,提高強(qiáng)特征權(quán)重,降低弱特征的權(quán)重,同時(shí)在由圖像到文字的解碼過(guò)程中又具有天然的語(yǔ)義捕獲能力,因此,在圖像特征提取以及語(yǔ)義提取方面都提升了OCR模型的性能。 
1.基于CTC文字識(shí)別方法
CRNN
官方論文:An End-to-End Trainable Neural Network for Image-Based Sequence Recognition and Its Application to Scene Text Recognition
 參考代碼:https://github.com/meijieru/crnn.pytorch
簡(jiǎn)介:基于 CTC 最典型的算法是CRNN (Convolutional Recurrent Neural Network),它的特征提取部分使用主流的卷積結(jié)構(gòu),常用的有ResNet、MobileNet、VGG等。CRNN文本識(shí)別算法引入了雙向 LSTM(Long Short-Term Memory) 用來(lái)增強(qiáng)上下文建模,通過(guò)實(shí)驗(yàn)證明雙向LSTM模塊可以有效的提取出圖片中的上下文信息。最終將輸出的特征序列輸入到CTC模塊,直接解碼序列結(jié)果。
CRNN網(wǎng)絡(luò)架構(gòu):
CRNN網(wǎng)絡(luò)結(jié)構(gòu)包含三部分,從下到上依次為:
1.卷積層,使用深度CNN,對(duì)輸入圖像提取特征。
2.循環(huán)層,使用雙向RNN(BLSTM)對(duì)特征序列進(jìn)預(yù)測(cè),輸出預(yù)測(cè)標(biāo)簽(真實(shí)值)分布。
3.轉(zhuǎn)錄層,使用 CTC 損失,把從循環(huán)層獲取的一系列標(biāo)簽分布轉(zhuǎn)換成最終的標(biāo)簽序列。
2.基于Attention文字識(shí)別方法
簡(jiǎn)介:目前主流的場(chǎng)景文本識(shí)別模型都是基于編碼器-解碼器框架的,而傳統(tǒng)的編碼器-解碼器框架只能將輸入序列編碼成一個(gè)固定長(zhǎng)度的向量表示。引入Attention機(jī)制的編碼器輸出的是不定長(zhǎng)向量組成的序列,對(duì)目標(biāo)數(shù)據(jù)以及相關(guān)數(shù)據(jù)賦予更大的權(quán)重,使得解碼器的“注意力”集中到目標(biāo)數(shù)據(jù),獲取到更多的細(xì)節(jié),并且可以學(xué)到較長(zhǎng)輸入序列的合理向量表示。注意機(jī)制通常與RNN 結(jié)合作為預(yù)測(cè)模塊。
ASTER
官方論文:ASTER: An Attentional Scene Text Recognizer with Flexible Rectification
 參考代碼:https://github.com/ayumiymk/aster.pytorch
以下為基于Attention文字識(shí)別方法總結(jié):
以下是文字識(shí)別方法算法分類,具體內(nèi)容參考文章:OCR文字識(shí)別經(jīng)典論文詳解
 
八、深度學(xué)習(xí)文字檢測(cè)與識(shí)別方法發(fā)展歷程
1.過(guò)分割與文本行識(shí)別兩種方法發(fā)展:
2.深度學(xué)習(xí)文字檢測(cè)模型發(fā)展:
3.深度學(xué)習(xí)文字識(shí)別模型發(fā)展:
注:文字檢測(cè)與文字識(shí)別算法部分在后續(xù)系列文章中將詳細(xì)展開(kāi)介紹,后續(xù)參考文章開(kāi)頭目錄!
九、OCR常用的數(shù)據(jù)集
規(guī)則數(shù)據(jù)集
- IIIT5K-Words (IIIT) 2000 for Train; 3000 for Test
- Street View Text (SVT) 257 for Train; 647 for Test
- ICDAR2003 (IC03)
不規(guī)則數(shù)據(jù)集
- ICDAR2015 (IC15) 4468 for Train; 2077 for Test;
- SVT Perspective (SP) 645 for Test
- CUTE80 (CT) 288 for Test
合成數(shù)據(jù)集
- MJSynth (MJ) 8.9million個(gè)圖像
- SynthText(ST) 5.5million個(gè)圖像
注:后續(xù)文章將對(duì)上述重要數(shù)據(jù)集逐一展開(kāi)詳細(xì)介紹!
1.數(shù)據(jù)集匯總
 
 
2.數(shù)據(jù)集下載
| ICDAR_2013 | 語(yǔ)言: 英文 train:229 test:233 | x1 y1 x2 y2 text | 下載鏈接1 . | 
| ICDAR_2015 | 語(yǔ)言: 英文 train:1000 test:500 | x1,y1,x2,y2,x3,y3,x4,y4,text | 下載鏈接2 . | 
| ICDAR2017-MLT | 語(yǔ)言: 混合 train:7200 test:1800 | x1,y1,x2,y2,x3,y3,x4,y4,text | 下載鏈接3 . 提取碼: z9ey | 
| ICDAR2017-RCTW | 語(yǔ)言: 混合 train:8034 test:4229 | x1,y1,x2,y2,x3,y3,x4,y4,<識(shí)別難易程度>,text | 下載鏈接4 | 
| 天池比賽2018 | 語(yǔ)言: 混合 train:10000 test:10000 | x1,y1,x2,y2,x3,y3,x4,y4,text | 檢測(cè)5 。 識(shí)別6 | 
| ICDAR2019-MLT | 語(yǔ)言: 混合 train:10000 test:10000 | x1,y1,x2,y2,x3,y3,x4,y4,語(yǔ)言類別,text | 下載鏈接7 . 提取碼: xofo | 
| ICDAR2019-LSVT | 語(yǔ)言: 混合 train:30000 test:20000 | json格式標(biāo)簽 | 下載鏈接8 | 
| ICDAR2019-ReCTS | 語(yǔ)言: 混合 train:20000 test:5000 | json格式標(biāo)簽 | 下載鏈接9 | 
| ICDAR2019-ArT | 語(yǔ)言: 混合 train:5603 test:4563 | json格式標(biāo)簽 | 下載鏈接10 | 
| Synth800k | 語(yǔ)言: 英文 80k | 基于字符標(biāo)注 | 下載鏈接11 | 
| 360萬(wàn)中文數(shù)據(jù)集 | 語(yǔ)言: 中文 360k | 每張圖片由10個(gè)字符構(gòu)成 | 下載鏈接12 . 提取碼:lu7m | 
| 中文街景數(shù)據(jù)集CTW | 語(yǔ)言:中文 32285 | 基于字符標(biāo)注的中文街景圖片 | 下載鏈接13 | 
| 百度中文場(chǎng)景文字識(shí)別 | 語(yǔ)言: 混合 29萬(wàn) | 下載鏈接14 | 
十、OCR技術(shù)難點(diǎn):
1.不同拍攝角度:指通過(guò)正拍、斜拍和圖像反轉(zhuǎn)等不同角度進(jìn)行拍攝;
2.不同光線:指在亮光(可能會(huì)出現(xiàn)反光)、暗光和部分亮光部分暗光的情形 下拍攝;
3.文字不清晰:指存在因污損、遮擋、折痕、印章、背景紋理等造成文字不 清楚的樣本;
4.邊框不完整:主要指圖片樣本中物體(證件、票據(jù)、車牌等)邊框沒(méi)有完 整出現(xiàn)在畫(huà)面中;
5.其他特殊情況:主要指卡證類樣本需考慮帶有少數(shù)民族文字、生僻字,同 時(shí)考慮到證件等用于高安全場(chǎng)景,對(duì)復(fù)印、掃描、屏幕翻拍、PS等樣本 進(jìn)行告警;印刷體樣本需考慮不同字號(hào)、不同排版方向,以及彎曲的文本。
十一、OCR評(píng)價(jià)指標(biāo)
OCR評(píng)價(jià)指標(biāo)包括字段粒度和字符粒度的識(shí)別效果評(píng)價(jià)指標(biāo)。
- 以字段為單位的統(tǒng)計(jì)和分析,適用于卡證類、 票據(jù)類等結(jié)構(gòu)化程度較高的OCR 應(yīng)用評(píng)測(cè)。
- 以字符 (文字和標(biāo)點(diǎn)符號(hào)) 為單位的統(tǒng)計(jì)和分析,適用于通用印刷體、手寫(xiě)體類非結(jié)構(gòu)化數(shù)據(jù)的OCR應(yīng)用評(píng)測(cè)。具體指標(biāo)包括以下幾個(gè):
 
 (上圖摘自智能文字識(shí)別(OCR)能力評(píng)測(cè)與應(yīng)用白皮書(shū))
此外,從服務(wù)角度來(lái)說(shuō),識(shí)出率、平均耗時(shí)等也是衡量OCR系統(tǒng)好壞的指標(biāo)之一。
編輯距離:
編輯距離是針對(duì)二個(gè)字符串(例如英文字)的差異程度的量化量測(cè),量測(cè)方式是看至少需要多少次的處理才能將一個(gè)字符串變成另一個(gè)字符串。在萊文斯坦距離中,可以刪除、加入、替換字符串中的任何一個(gè)字元,也是較常用的編輯距離定義,常常提到編輯距離時(shí),指的就是萊文斯坦距離。
測(cè)試指標(biāo)說(shuō)明:
平均識(shí)別率:[ 1 - (編輯距離 / max(1, groundtruth字符數(shù), predict字符數(shù)) ) ] * 100.0%
 的平均值; 平均編輯距離:編輯距離,用來(lái)評(píng)估整體的檢測(cè)和識(shí)別模型;
 平均替換錯(cuò)誤:編輯距離計(jì)算時(shí)的替換操作,用于評(píng)估識(shí)別模型對(duì)相似字符的區(qū)分能力;
 平均多字錯(cuò)誤:編輯距離計(jì)算時(shí)的刪除操作,用來(lái)評(píng)估檢測(cè)模型的誤檢和識(shí)別模型的多字錯(cuò)誤;
 平均漏字錯(cuò)誤:編輯距離計(jì)算時(shí)的插入操作,用來(lái)評(píng)估檢測(cè)模型的漏檢和識(shí)別模型的少字錯(cuò)誤;
十二 、OCR資源
1.論文學(xué)習(xí)資源
- 頂會(huì):ICDAR、CVPR、ECCV、ICCV等
- Arxiv搜索引擎:http://www.arxiv-sanity.com/
2.OCR相關(guān)比賽:
ICDAR 國(guó)際文檔分析與識(shí)別大會(huì) : https://rrc.cvc.uab.es/?com=introduction
含金量較高,兩年一次,目前2023年比賽正在進(jìn)行,歡迎大家評(píng)論區(qū)組隊(duì)參加!
CSIG 中國(guó)圖象圖形學(xué)學(xué)會(huì)
會(huì)定期舉行OCR方向比賽,含金量可以,值得參加。
3.國(guó)內(nèi)OCR領(lǐng)域優(yōu)秀學(xué)者(不分先后順序):
白翔,黃偉林,金連文,劉成林,殷緒成
4.常見(jiàn)的OCR識(shí)別平臺(tái):
- 百度開(kāi)放平臺(tái):PaddleOCR
- 商湯科技OpenMM : MMOCR
- 谷歌開(kāi)源OCR引擎:Tesseract
- 其余基于深度學(xué)習(xí)字符識(shí)別框架
后續(xù)文章將依次繼續(xù)詳細(xì)介紹,并包括使用上述框架進(jìn)行OCR項(xiàng)目實(shí)戰(zhàn)!
5.優(yōu)秀OCR資源推薦:
1.OCR合集: handong1587
 2. Awesome-Scene-Text-Recognition
后續(xù)文章將更新最新OCR優(yōu)秀資料,歡迎訂閱關(guān)注!
本文參考資料:
 https://aistudio.baidu.com/aistudio/education/group/info/25207
總結(jié)
以上是生活随笔為你收集整理的OCR入门教程系列(一):OCR基础导论的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
 
                            
                        - 上一篇: pandas神器操作excel表格大全(
- 下一篇: 全国计算机英语四六级准考证打印准考证号,
