查询任意汉字的Unicode编码,UTF8编码,GB2312编码,GBK编码
生活随笔
收集整理的這篇文章主要介紹了
查询任意汉字的Unicode编码,UTF8编码,GB2312编码,GBK编码
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
在所有IT項目中,漢字字符編碼帶來的問題是一個不小的工作量,經常導致亂碼的發生。快速查詢任意漢字的編碼能夠更快的定位錯誤。糖果云庫新增了漢字字符集庫,可查詢任意漢字的Unicode編碼,UTF8編碼,GB2312編碼,GBK編碼,庫的鏈接為:
http://www.tgyun.cc/lib/bigtang_漢字字符集
GB2312編碼范圍:A1A1-FEFE,其中漢字編碼范圍:B0A1-F7FE。
GB2312編碼是第一個漢字編碼國家標準,由中國國家標準總局1980年發布,1981年5月1日開始使用。GB2312編碼共收錄漢字6763個,其中一級漢字3755個,二級漢字3008個。同時,GB2312編碼收錄了包括拉丁字母、希臘字母、日文平假名及片假名字母、俄語西里爾字母在內的682個全角字符。
GBK編碼范圍:8140-FEFE,漢字編碼范圍見第二節:碼位分配及順序。
GBK編碼,是對GB2312編碼的擴展,因此完全兼容GB2312-80標準。GBK編碼依然采用雙字節編碼方案,其編碼范圍:8140-FEFE,剔除xx7F碼位,共23940個碼位。共收錄漢字和圖形符號21886個,其中漢字(包括部首和構件)21003個,圖形符號883個。GBK編碼支持國際標準ISO/IEC10646-1和國家標準GB13000-1中的全部中日韓漢字,并包含了BIG5編碼中的所有漢字。GBK編碼方案于1995年12月15日正式發布,這一版的GBK規范為1.0版。
Unicode也是一種字符編碼方法,不過它是由國際組織設計,可以容納全世界所有語言文字的編碼方案。Unicode的學名是”Universal Multiple-Octet Coded Character Set”,簡稱為UCS。UCS可以看作是”Unicode Character Set”的縮寫。
UCS有兩種格式:UCS-2和UCS-4。顧名思義,UCS-2就是用兩個字節編碼,UCS-4就是用4個字節(實際上只用了31位,最高位必須為0)編碼。
UCS-2有2^16=65536個碼位,常說的Unicode編碼指的是UCS-2的編碼,它又有兩種表示方法:
UTF-8就是以8位為單元對UCS進行編碼。UTF-16以16位為單元對UCS進行編碼。
總結
以上是生活随笔為你收集整理的查询任意汉字的Unicode编码,UTF8编码,GB2312编码,GBK编码的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 燕山大学高数AⅠ复习资料
- 下一篇: lenovo微型计算机如何拆t410,拆