微软OCR两层优化提升自然场景下的文字识别精度(模式识别新研究)
鼠標發明人Douglas Engelbart曾經針對人工智能的簡稱AI提出了另一個理念——Augmented Intelligence,即增強智能。在他看來,人已經足夠聰明,我們無需再去復制人類,而是可以從更加實用的角度,將人類的智能進一步延伸,讓機器去增強人的智能。
OCR (Optical Character Recognition,光學字符識別)就是這樣的一項技術,它的本質上是利用光學設備去捕獲圖像并識別文字,將人眼的能力延伸到機器上。本文將介紹OCR技術在移動環境下面臨的新挑戰,以及在自然場景圖像下微軟研究院文字識別技術的進展。
OCR的新挑戰
早在20世紀50年代,IBM就開始利用OCR技術實現各類文檔的數字化。到20世紀90年代,誕生十年的平板掃描儀對印刷體文本的識別率就已經達到99%以上,OCR由此迎來了第一個應用高潮。當時最著名的事件是谷歌數字圖書館,谷歌還申請了圖書掃描專利,實現了批量化的高速掃描。在此期間,手寫字體的識別也在并行發展,被廣泛用于郵件分揀、支票分類、手寫表格數字化等領域。
然而,自從2004年擁有300萬像素攝像頭的智能手機誕生之日起,這一情況發生了根本改變。越來越多的人隨手拿起手機拍攝所看到的事物和場景,而此類自然場景中的文字識別難度遠遠高于平板掃描儀時期,即便是印刷字體,也不能得到很高的識別率,更別說手寫體了。學術界因此將自然場景中的文字識別作為全新的課題來對待。
自然場景圖像中的文字識別大大難于掃描儀圖像中的文字識別,因為它具有極大的多樣性和明顯的不確定性。如文字中包含多種語言,每種語言含有多種字母,每個字母又可以有不同的大小、字體、顏色、亮度、對比度等;文字通常以文本行的形式存在,但文本行可能有不同的排列和對齊方式,橫向、豎向、彎曲都有可能;因拍攝圖像的隨意性,圖像中的文字區域還可能會產生變形(透視和仿射變換)、殘缺、模糊斷裂等現象。
自然場景圖片中的文字多樣性示例
此外,與傳統?OCR 技術中的掃描文檔圖像相比,自然場景圖像的背景更為復雜。如文字可能不是寫在平面上而是在曲面上;文字區域附近有非常復雜的紋理和噪聲;圖像中的非文字區域有著跟文字區域非常相似的紋理,比如窗戶、樹葉、柵欄、磚墻等。這些復雜背景會極大增加誤檢率。
本文檢測的改進方法
由于自然場景下的文字識別難度大,微軟亞洲研究院團隊對相關技術和算法進行了針對性的優化,從三個方面對文本檢測技術進行了改進,并取得突破。通常,OCR識別的步驟可以分為兩步:首先是文本檢測(Text detection),將文字從圖片中提取出來;然后,對文本進行識別(Recognition),此次的突破主要是在文本檢測環節的兩個子階段。
階段①:采用對比極值區域CER檢測方法
一個字母或文字通常可以分為若干個連通區域,如o就擁有一個連通區域,i則擁有兩個連通區域,文本檢測首先要從圖像中切割出可能存在的文字,即候選連通區域,然后再對其進行文字/非文字分類。
在確定候選連通區域階段,微軟亞洲研究院團隊在傳統檢測方法ER(Extremal Region,極值區域)和MSER(Maximally Stable Extremal Region,最大平穩極值區域)基礎之上采用了對比極值區域CER(Contrasting Extremal Region),CER是跟周圍的背景有一定對比度的極值區域,這個對比度至少要強到能夠被人眼感知到,在低對比度的圖像上比MSER效果更好,而且獲得的候選連通區域數量遠小于ER,候選范圍大大縮小,提高了算法的效率。
為了提高所獲得的候選連通區域的質量,微軟亞洲研究院團隊決定增加一個算法環節去增強CER。尤其在圖像模糊、分辨率低或者噪聲較多時,提取出來的CER有可能會含有冗余像素或者噪聲,這些冗余像素或者噪聲的存在會使得后面的文字/非文字分類問題變得更為復雜。
算法優化的另一個特點,是采用基于感知的光照不變(Perception-based Illumination Invariant, PII)顏色空間中的顏色信息去增強CER,利用顏色信息盡可能濾除CER中的冗余像素或者噪聲,從而得到Color-enhanced CER。該顏色空間具有視覺感知一致性,而且對光照不敏感,更接近人眼對顏色的判斷。
受噪聲影響的CER示例
在實際操作中,并不是每個CER都需要通過顏色信息來增強,因為有很多CER本身顏色均勻,沒有噪聲,尤其是在圖片質量很高的時候。因此,在對CER進行增強操作之前我們會先判斷該CER是否需要增強操作,以減少不必要的計算復雜度。
對CER的顏色增強效果示例
算法提取出來的候選連通區域結果示例
階段②:基于淺層神經網絡的文字/非文字分類算法
當獲得了高質量的候選連通區域,就需要對其中的字符進行分辨,確定其是否為文字或非文字,微軟亞洲研究院團隊提出了一套基于淺層神經網絡的文字/非文字分類算法,比以往的算法更加有效。
該算法根據文字本身的特性采用分治策略將原始問題空間劃分為5個子空間,每個子空間對應一類文字樣本,分別命名為Long類,Thin類,Fill類,Square-large類和 Square-small類(如下圖所示),于是每個候選連通區域被劃分到這5類中的一種。
文字類問題空間劃分示例
在每個子空間中,微軟亞洲研究院團隊利用無歧義學習策略訓練一個相應的淺層神經網絡,作為該子空間的文字/非文字分類器,我們可以將該神經網絡看作是一個黑盒子,在經過大量學習之后,它便能較為準確的將文字與非文字分類。
每次分類動作包括兩個階段——預剪枝(Pre-pruning)階段和驗證(Verification)階段。在預剪枝階段,分類器的任務是盡可能濾除無歧義的非文字候選連通區域;在驗證階段,則通過引入更多信息來消除孤立連通區域的歧義性,從而進一步濾除有歧義的非文字候選連通區域。
改進的有效性得到了驗證。2014年8月,在瑞典首都斯德哥爾摩舉辦的國際模式識別大會(ICPR)上,微軟亞洲研究院團隊公布的研究成果在自然場景文字檢測的標準數據集(ICDAR-2013測試集)上取得了92.1%的檢測精度和92.3%的召回率。此前業界最好技術的檢測精度是88.5%,而召回率只有66.5%,多年來這些數字每年增長只有幾個百分點。
應用前景分析
人類需求牽引科技發展走到今天,智慧的無限延伸決定了世界的無限潛能。10年前的簡單通訊工具手機如今已成為智慧生活的伴侶,曾經只被掃描儀應用的OCR技術亦已煥發新機。隨著OCR研究工作的不斷突破,云計算、大數據以及通訊網絡的快速發展,以及智能眼鏡、可穿戴設備等智能設備的推陳出新,OCR的應用也將充滿無限機會、無限可能性。
我們也可以設想一下OCR在未來工作中的應用場景:每次工作會議后,無需再把白板上的討論內容抄寫下來,然后群發郵件布置任務,前端只要將白板用手機等智能設備拍照留存,后端可以對其進行實時分析和處理,系統便能自動識別并分檢出相關人員的后續工作,并將待辦事項自動存放到各自的電子日歷中。
事實上,基于微軟亞洲研究院的OCR核心技術,微軟前不久推出的Office Lens應用,已經可以通過視覺計算技術自動對圖像進行清理并把它保存到OneNote,而OneNote中基于云端的OCR技術將對圖片進行文字識別,隨后用戶就可以擁有一個可編輯、可搜索的數字文件,這為上述未來應用場景打下了基礎。
作者簡介:
霍強博士,微軟亞洲研究院首席研究員
Qiang Huo is a Principal Research Manager of Speech Group in Microsoft Research Asia (MSRA), Beijing, China. Prior to joining MSRA in August 2007, he had been a faculty member at the Department of Computer Science, The University of Hong Kong since 1998. From 1995 to 1997, Dr. Huo worked at Advanced Telecommunications Research Institute (ATR) in Kyoto, Japan. In the past 30 years, he has been doing research and making contributions in the areas of speech recognition, handwriting recognition, OCR, gesture recognition, biometric-based user authentication, hardware design for speech and image processing.?
總結
以上是生活随笔為你收集整理的微软OCR两层优化提升自然场景下的文字识别精度(模式识别新研究)的全部內容,希望文章能夠幫你解決所遇到的問題。