gb2312编码表_汉字编码输入系统模型(一)
通過前面介紹的通信系統模型來分析漢字編碼輸入系統,將漢字編碼輸入系統的特殊性整合到通信系統模型中,從而建立起一種基于信息論的漢字編碼輸入系統模型(參見圖3.2),以便指導我們的漢字編碼輸入實踐,設計和開發出更好的漢字編碼輸入法。
在圖3.2中,M代表消息,C代表編碼,S’代表編碼的內碼,M’代表消息的內碼。與信息論中的通信系統模型相比,該圖中的模型僅僅是多了一個反向信道,而其它部分都是相同的,相當于一個帶反饋的通信系統。雖然模型中各部分的具體含義與典型的通信系統中的相應部分大不相同,但是信息論中的普遍結論仍然是成立的。
漢字編碼輸入系統的信源
在漢字編碼輸入系統這個特殊的通信系統中,充當信源的是輸入人員,而不是一般的電子設備。輸入人員是一種離散信源,他產生的消息序列就是待輸入的文本。消息可以是單個的字符,也可以是字符的序列。消息中不僅包括漢字,還包括標點、符號、拼音等,不僅包括全角字符還可以包括半角字符。所有的這些符號一起構成了源字母表。在中文信息處理領域,該字母表通常被稱為“信息交換用漢字編碼字符集”。在不同的國家和地區,以及在不同的時期,這個字符集的大小和包含的具體字符是不同的。臺灣在字符集方面有自己獨立的BIG5工業標準。另外,日本、韓國也在使用漢字,也有各自的標準。在中國大陸,字符集的主要發展歷程是由GB2312(6763個漢字)到GB13000(20902個漢字)再到GB18030(27533個漢字)
① 漢字編碼輸入系統信源的統計結構
在討論語言文字信源的統計結構時,一般都不考慮標點符號。這里討論漢字信源的統計結構也不考慮非漢字符號。源字母表中的字符可以是單字,也可以是詞。漢字信源可以用一個馬爾柯夫鏈(或稱離散馬爾柯夫過程)來描述。馬爾柯夫鏈的階可高可低,階數越高對漢字信源的描述就越準確。在階數相同時,以詞為源字母表中的字符又比以單字為源字母表中的字符準確。但是,越準確的描述需要的運算量就越大。
對于一般漢字輸入編碼來說,只有單字的零階熵和詞的零階熵實際意義最大。漢字的最大熵和極限熵也有很大的理論價值。另外兩個比較重要的派生指標是漢字信源的相對熵和冗余度。下面我們就這些內容加以討論。
對于單字的零階熵,由于出現概率越小的漢字對零階熵的影響越小,且漢字的概率分布極均勻,所以如果以漢字出現概率的高低收錄漢字的話,當字集的大小達到一定程度后,不論漢字數量如何增加,漢字的零階熵都幾乎不再變化。GB2312、GB13000、GB18030三者所收錄漢字的數量是遞增的,然而所增加的漢字都幾乎是低頻的漢字,因此GB2312中的漢字也就基本上決定了漢字的零階熵,字符集的增大對其影響不大。目前學者們對現代漢字零階熵計算的結果比較一致,大約為9.66比特。
對于單字的零階熵,由于出現概率越小的漢字對零階熵的影響越小,且漢字的概率分布極均勻,所以如果以漢字出現概率的高低收錄漢字的話,當字集的大小達到一定程度后,不論漢字數量如何增加,漢字的零階熵都幾乎不再變化。GB2312、GB13000、GB18030三者所收錄漢字的數量是遞增的,然而所增加的漢字都幾乎是低頻的漢字,因此GB2312中的漢字也就基本上決定了漢字的零階熵,字符集的增大對其影響不大。目前學者們對現代漢字零階熵計算的結果比較一致,大約為9.66比特。
對于詞的零階熵,情況和單字的零階熵類似,只是計算的規模要大得多。目前,詞的零階熵結果大約是11.46比特/詞。根據北京航空航天大學等單位承擔的“七五”國家重點科技攻關項目“現代漢語詞頻統計”所得的結果(參見表3.1),詞的平均長度為1.5字。這樣,把詞的零階熵折合為漢字熵的結果為11.46/1.5=7.64。
② 輸入方式對漢字信源熵率的影響
在“看打”時,輸入者產生消息的速度肯定會受到其閱讀速度的制約。另外,因輸入者打字的熟練程度不同,他還需要不同程度地查看屏幕上提示的反饋信息,這種來回視線轉移所造成的字詞定位困難會進一步限制他產生消息的速度。越依賴屏幕提示的輸入法對“看打”時產生消息的速度影響越大。比如“全拼”就比“五筆字型”對屏幕提示的依賴性大得多,除非能記住重碼字詞的位置,否則“看打”時效率非常低下。
在“聽打”時,漢字信源熵率取決于口述者的說話速度和錄入者的聽話速度。如果前者超過后者,那么后者就成為速度瓶頸。如果前者慢于后者,那么前者就成為速度瓶頸。一般來講,口授者是邊思維邊說話,因此口授者的說話速度又受其思維速度的限制。
在“想打”時,漢字信源熵率主要取決于錄入者的思維速度。
無論是“聽打”還是“想打”,錄入者一般都是注視著插入光標進行操作的,因此在插入光標處或在插入光標附近提供適當的反饋信息可以幫助他減少記憶量,并且不會對信源熵率產生太大的影響。
③ 特定輸入者對漢字信源統計結構的影響
上述漢字信源統計結構的結果都是以漢字使用者全體所產生的漢字文本為基礎進行統計而得出來的。但是,不同的輸入者有不同的知識背景和字詞使用習慣。如果統計僅局限于某個輸入者所產生的漢字文本,則不同的輸入者將會成為具有不同統計結構的信源。為了適應個性化輸入的需要,輸入法軟件應該能夠可針對不同用戶采用不同的優化編碼。進一步,還可以在用戶輸入不同領域的內容時動態地提供不同的編碼,使輸入法更具利用特殊場景的能力。
總結
以上是生活随笔為你收集整理的gb2312编码表_汉字编码输入系统模型(一)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: java 异常捕获抛出_JAVA异常处理
- 下一篇: oracle数据库函数手册,Oracle