印刷汉字识别方法综述
一、文字識別概述
漢字是歷史悠久的中華民族文化的重要結晶,閃爍著中國人民智慧的光芒。漢字數量眾多,僅清朝編纂的《康熙字典》就包含了49,000多個漢字,其數量之大,構思之精,為世界文明史所僅有。由于漢字為非字母化、非拼音化的文字,所以在信息技術及計算機技術日益普及的今天,如何將漢字方便、快速地輸入到計算機中已成為關系到計算機技術能否在我國真正普及的關鍵問題。前文圖1所示將漢字輸入到計算機里一般有兩種方法:人工鍵入和自動輸入。其中人工鍵入速度慢而且勞動強度大,一般的使用者每分鐘只能輸入40~50個漢字。這種方法不適用于需要處理大量文字資料的辦公自動化、文檔管理、圖書情報管理等場合。而且隨著勞動力價格的升高,利用人工方法進行漢字輸入也將面臨經濟效益的挑戰。自動輸入又分為漢字識別輸入及語音識別輸入。
由于漢字數量眾多,漢字識別問題屬于超多類模式集合的分類問題。漢字識別技術可以分為印刷體識別及手寫體識別技術。而手寫體識別又可以分為聯機(on-line)與脫機(off-line)兩種。這種劃分方法可以用圖1來表示。
從識別技術的難度來說,手寫體識別的難度高于印刷體識別,而在手寫體識別中,脫機手寫體的難度又遠遠超過了聯機手寫體識別。
到目前為止,除了脫機手寫體數字的識別已有實際應用外,漢字等文字的脫機手寫體識別還處在實驗室階段。
聯機手寫體的輸入,是依靠電磁式或壓電式等手寫輸入板來完成的。在書寫時,筆在板上的運動軌跡(在板上的坐標)被轉化為一系列的電信號,電信號可以串行地進入到計算機中。從這些電信號我們可以比較容易地抽取筆劃和筆順的信息。從90年代以來,聯機手寫體的識別正逐步走向實用,方興未艾。中國大陸及臺灣地區的科研工作者推出了多個聯機手寫體漢字識別系統,國外的一些大公司也開始進入這一市場。這一技術也迎合了pda(personaldigitalassistant)的發展潮流。
與脫機手寫體和聯機手寫體識別相比,印刷體漢字識別已經實用化,而且在向更高的性能、更完善的用戶界面的方向發展。因為它有著廣泛的應用前景。目前,辦公自動化已成為信息社會不可避免的發展趨勢。雖然在計算機網絡飛速發展的今天,許多信息已經電子化,世界各地出現了許多“電子版”的報紙、雜志等出版物。但是我們可以看到印刷材料的數量也大大地增加了,一些專業單位如新聞社、圖書館、古籍出版社、檔案館等所接觸的印刷材料更是浩如煙海,畢竟閱讀印刷材料更為符合人的自然閱讀習慣;同時,網絡信息資源的爆炸性增長以及網絡傳輸容量的限制,都是方便、快速地獲取這些信息的約束因素。電子化的與印刷文本材料如同一枚硬幣的兩面,互相補充、互相促進,在未來的十幾年或更長的時間內將不會出現一者被另一者取代的情況。
二、印刷體文字識別流程簡介
印刷體文字識別的過程如前文圖2所示。原始圖象是通過光電掃描儀,ccd器件或電子傳真機等獲得的二維圖象信號,可以是灰度(grayscale)或二值(binary)圖象。為簡單計,在本文以后的論述中,除非特別提及,圖象輸入的方式均指由掃描儀輸入。前文圖2印刷體文字識別的簡單流程圖所示預處理包括對原始圖象的去噪、傾斜校正或各種濾波處理。版面分析完成對于文本圖象的總體分析,區分出文本段落及排版順序,圖象、表格的區域;對于文本區域將進行識別處理,對于表格區域進行專用的表格分析及識別處理,對于圖象區域進行壓縮或簡單存儲。行字切分是將大幅的圖象先切割為行,再從圖象行中分離出單個字符的過程。特征提取是整個環節中最重要的一環,它是從單個字符圖象上提取統計特征或結構特征的過程,包括為此而做的細化(thinning)、歸一化(normalization)等步驟。提取的特征的穩定性及有效性,直接決定了識別的性能。文字識別即從學習得到的特征庫中找到與待識字符相似度最高的字符類的過程。后處理則是利用詞義、詞頻、語法規則或語料庫等語言先驗知識對識別結果進行校正的過程。
由此可見,印刷漢字識別技術主要包括:
其中(4)、(5)和(6),也就是圖2中的陰影部分,是印刷漢字識別中最為核心的技術。近幾年來,印刷漢字識別系統的單字識別正確率已經超過95%,為了進一步提高系統的總體識別率,掃描圖象、圖象的預處理以及識別后處理等方面的技術,也都得到了深入的研究,并取得了長足的進展,有效地提高了印刷漢字識別系統的總體性能。
三、印刷體文字識別的研究歷程
印刷體文字的識別可以說很早就成為人們的夢想,早在1929年,taushek就在德國獲得了一項有關ocr的專利。歐美國家為了將浩如煙海、與日俱增的大量報刊雜志、文件資料和單據報表等文字材料輸入計算機進行信息處理,從50年代就開始了西文ocr(opticalcharacterrecognition,光學字符識別)技術的研究,以便代替人工鍵盤輸入。
印刷體漢字的識別最早可以追溯到60年代。1966年,ibm公司的casey和nagy發表了第一篇關于印刷體漢字識別的論文,在這篇論文中他們利用簡單的模板匹配法識別了1,000個印刷體漢字。70年代以來,日本學者做了許多工作,其中有代表性的系統有1977年東芝綜合研究所研制的可以識別2000漢字的單體印刷漢字識別系統;80年代初期,日本武藏野電氣研究所研制的可以識別2300個多體漢字的印刷體漢字識別系統,代表了當時漢字識別的最高水平。此外,日本的三洋、松下、理光和富士等公司也有其研制的印刷漢字識別系統。這些系統在方法上,大都采用基于k-l數字變換的匹配方案,使用了大量專用硬件,其設備有的相當于小型機甚至大型機,價格極其昂貴,沒有得到廣泛應用。
我國對印刷漢字識別的研究始于70年代末、80年代初,大致可以分為三大階段:
同國外相比,我國的印刷體漢字識別研究起步較晚。但由于我國政府對漢字自動識別輸入的研究從80年代開始給予了充分的重視和支持,經過科研人員十多年的辛勤努力,印刷體漢字識別技術的發展和應用,有了長足進步:從簡單的單體識別發展到多種字體混排的多體識別,從中文印刷材料的識別發展到中英混排印刷材料的雙語識別。各個系統可以支持簡、繁體漢字的識別,解決了多體多字號混排文本的識別問題,對于簡單的版面可以進行有效的定量分析,同時漢字識別率已達到了98%以上。
清華大學電子工程系、中國科學院計算所智能中心、北京信息工程學院、沈陽自動化研究所等單位分別研制開發出實用化的印刷體漢字識別系統。尤其是由清華大學電子工程系研制的清華th-ocr產品,始終處于技術與產品發展的最前沿,并占據著最大的市場份額,代表著中文ocr技術發展的潮流。
這一成就,是對中華文化寶貴遺產的繼承和發揚,在世界電腦發展史上,必將留下光輝的一頁,同時,這也是造福子孫千秋萬代的大事。國家高技術研究發展"863"計劃、國家重點科技攻關計劃、國家自然科學基金和軍事基礎研究基金都對這一研究課題予以極大的重視和大力的支持。
四、印刷體文字識別研究方法簡介
識別方法是整個系統的核心。用于漢字識別的模式識別方法可以大致分為結構模式識別、統計模式識別及兩者的結合。下面分別進行介紹。
1、結構模式識別
漢字是一種特殊的模式,其結構雖然比較復雜,但具有相當嚴格的規律性。換言之,漢字圖形含有豐富的結構信息,可以設法提取含有這種信息的結構特征及其組字規律,作為識別漢字的依據,這就是結構模式識別。
結構模式識別是早期漢字識別研究的主要方法。其主要出發點是漢字的組成結構。從漢字的構成上講,漢字是由筆劃(點橫豎撇捺等)、偏旁部首構成的;還可以認為漢字是由更小的結構基元構成的。由這些結構基元及其相互關系完全可以精確地對漢字加以描述,就像一篇文章由單字、詞、短語和句子按語法規律所組成一樣。所以這種方法也叫句法模式識別。識別時,利用上述結構信息及句法分析的方法進行識別,類似一個邏輯推理器。
用這種方法來描述漢字字形結構在理論上是比較恰當的,其主要優點在于對字體變化的適應性強,區分相似字能力強;但是,在實際應用中,面臨的主要問題是抗干擾能力差,因為在實際得到的文本圖象中存在著各種干擾,如傾斜,扭曲,斷裂,粘連,紙張上的污點,對比度差等等。這些因素直接影響到結構基元的提取,假如結構基元不能準確地得到,后面的推理過程就成了無源之水。此外結構模式識別的描述比較復雜,匹配過程的復雜度因而也較高。所以在印刷體漢字識別領域中,純結構模式識別方法已經逐漸衰落,句法識別的方法正日益受到挑戰。
2、統計模式識別
統計決策論發展較早,理論也較成熟。其要點是提取待識別模式的的一組統計特征,然后按照一定準則所確定的決策
當然還有許多種不同的統計特征,諸如圖描述法、包含配選法、脫殼透視法、差筆劃法等,這里就不一一介紹了。
3、統計識別與結構識別的結合
結構模式識別與統計模式識別各有優缺點,隨著我們對于兩種方法認識的深入,這兩種方法正在逐漸融合。網格化特征就是這種結合的產物。字符圖象被均勻地或非均勻地劃分為若干區域,稱之為“網格”。在每一個網格內尋找各種特征,如筆劃點與背景點的比例,交叉點、筆劃端點的個數,細化后的筆劃的長度、網格部分的筆劃密度等等。特征的統計以網格為單位,即使個別點的統計有誤差也不會造成大的影響,增強了特征的抗干擾性。這種方法正得到日益廣泛的應用。
4、人工神經網絡
人工神經網絡(artificialneuralnetwork,以下稱ann)是一種模擬人腦神經元細胞的網絡結構,它是由大量簡單的基本元件-神經元相互連接成的自適應非線性動態系統。雖然目前對于人腦神經元的研究還很不完善,我們無法確定ann的工作方式是否與人腦神經元的運作方式相同,但是ann正在吸引著越來越多的注意力。
ann中的各個神經元的結構與功能較為簡單,但大量的簡單神經元的組合卻可以非常復雜,我們從而可以通過調整神經元間的連接系數完成分類、識別等復雜的功能。ann還具有一定的自適應的學習與組織能力,組成網絡的各個“細胞”可以并行工作,并可以通過調整“細胞”間的連接系數完成分類、識別等復雜的功能。這是馮·諾依曼的計算機無法做到的。
ann可以作為單純的分類器(不包含特征提取,選擇),也可以用作功能完善的分類器。在英文字母與數字的識別等類別數目較少的分類問題中,常常將字符的圖象點陣直接作為神經網絡的輸入。不同于傳統的模式識別方法,在這種情況下,神經網絡所“提取”的特征并無明顯的物理含義,而是儲存在神經物理中各個神經元的連接之中,省去了由人來決定特征提取的方法與實現過程。從這個意義上來說,ann提供了一種“字符自動識別”的可能性。此外,ann分類器是一種非線性的分類器,它可以提供我們很難想象到的復雜的類間分界面,這也為復雜分類問題的解決提供了一種可能的解決方式。
目前,在對于象漢字識別這樣超多類的分類問題,ann的規模會很大,結構也很復雜,現在還遠未達到實用的程度。其中的原因很多,主要的原因還在于我們對人腦的工作方式以及ann本身的許多問題還沒有找到完美的答案。
五、漢字識別技術的最新進展
漢字識別最為重要的指標是識別正確率,最新技術包括兩個方面:一是使用組合優化特征的綜合識別方法,提高正確率,增加適應性;二是英文與數字的比例超過1/3時的漢英雙語混排識別。
1、組合優化特征的綜合識別方法
抽取單一種類的特征進行漢字識別,誤識率較難降低,且抗干擾性不易提高。因為這樣所利用的漢字信息量有限,不能全面反映漢字的特點,對任何一種特征來說,必然存在其識別的“死角”,即利用該特征很難區分的漢字。從模式識別的角度來看,若將漢字的全部矢量化特征所組成的空間稱作空間(iΚ1,2,……),那么利用整個空間Ω的信息進行漢字識別,由于提供的漢字信息很充分,抗干擾性會大大增強。
但是,在實際應用中,必須考慮到識別正確率與識別速度(運算量)及系統資源三者的折衷。所以任何一個實用的ocr系統只利用其中部分子空間的信息。由于信息的缺陷,便不可避免地遇到識別“死角”的問題。
“組合優化特征法”識別漢字的基本思想是:首先,在長期漢字識別研究的基礎上,選擇結構元等多種基于漢字筆劃結構的統計特征,這些特征具有良好的類內聚合和類間發散的分類能力;其次,有機地多種漢字特征互為補充,相得益彰,使漢字識別的“死角”大幅減小,從而提高識別率。
“組合優化特征”的綜合識別方式,是建立在對各種方法充分了解的基礎之上,基于知識的識別方式,因為這樣既富有針對性,充分發揮了各個方案的長處,取得了高的識別率,又提高了系統的運行效率。
2、漢英雙語混排識別
隨著信息產業的開放與發展,越來越多的英文詞語出現在我國的印刷文本材料中。尤其在科技文獻刊物中,更是屢見不鮮,英文、數字的比例常常超過1/3。英文字母出現在文本行中,其大小、高度與漢字中的偏旁部首很類似,難以區分是漢字偏旁部首,還是英文字母;英文單詞中字母之間的距離不等,粘連也相當普遍;漢字是以橫豎等筆劃為基本結構的,而英文則是以曲線為主。因此,漢英雙語混排識別的關鍵在于漢字和英文字母的正確分辨和切分。切分的傳統方法是利用“高度—寬度—位置”信息,但是由于漢字中可左右分離的字很多,其各部分無論高度和寬度,均與英文字母很接近,如“即”、“舊”等;而且,英文字母的粘連現象也無法解決;此外,許多英文的雙字母組合,三字母組合,是用一個字模來印刷的,如“fi”等。因此,在“高度—寬度—位置”準則基礎上,根據“tet(try-error-try)準則”,加入了“切分—預識別—二次切分”的手段。即對于各種可能出現的切分情況,進行預識別,從中選出誤差最小,最合乎語言邏輯習慣的組合。
對于粘連的英文字母,由于連續粘連在一起的字母可能有多個,組合的情況較多,且粘連的種類亦有較大區別。進行“窮舉式”試切分,所花費的時間代價太大。因此采用“化整為零”的方法,根據最佳鄰域搜索原則以及字母串在水平和垂直方向上的投影信息,將字母串從最可靠的地方一分為二,分為兩個子串;然后在這兩個子串內再重復上述步驟,直到子串的長度大約為三個英文字母的平均寬度;最后進行“窮舉式”試切分,從而大大縮短了切分所用的時間。從而有效地解決了漢英雙語混排文本的識別。
3、高性能實用漢字識別系統的其它關鍵技術
實用漢字識別系統的其它關鍵技術主要包括:
綜上所述,最新的印刷漢字識別技術流程,如圖3所示。
六、結論與展望
總體來說,近幾年來國內對印刷體漢字識別的研究還是相當深入的,也取得了很大成績,使系統的識別率不斷上升。目前印刷體漢字識別系統的應用已經相當成熟。
轉載于:https://www.cnblogs.com/yingying0907/archive/2011/08/05/2128928.html
總結
以上是生活随笔為你收集整理的印刷汉字识别方法综述的全部內容,希望文章能夠幫你解決所遇到的問題。
                            
                        - 上一篇: 2048小游戏(变态版哦)
 - 下一篇: plsql 64连接32oracle,3