UNICODE与UTF-8的转换
52 Unicode - Unicode編碼表,Unicode字符大全,Unicode字符集,Unicode符號
1. UTF-8的編碼方式
????????UTF-8是UNICODE的一種變長度的編碼表達方式(一般UNICODE為雙字節[指UCS2]),UTF-8就是以8位為單元對UCS進行編碼,而UTF-8不使用大尾序和小尾序的形式,每個使用UTF-8儲存的字符,除了第一個字節外,其余字節的頭兩個位元都是以"10"開始,使文字處理器能夠較快地找出每個字符的開始位置。
????????為了與以前的ASCII碼相容(ASCII為一個字節),因此 UTF-8 選擇了使用可變長度字節來儲存 Unicode,具體轉換關系如下表:
(表3-2 Unicode和UTF-8之間的轉換關系表)
| UCS-4(UNICODE)編碼 | UTF-8字節流 |
| U-00000000 – U-0000007F | 0xxxxxxx |
| U-00000080 – U-000007FF | 110xxxxx 10xxxxxx |
| U-00000800 – U-0000FFFF | 1110xxxx 10xxxxxx 10xxxxxx |
| U-00010000 – U-001FFFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx |
| U-00200000 – U-03FFFFFF | 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx |
| U-04000000 – U-7FFFFFFF | 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx |
2. UNICODE轉換為UTF-8
????????UTF-8的特點是對不同范圍的字符使用不同長度的編碼。對于0x00-0x7F之間的字符,UTF-8編碼與ASCII編碼完全相同。UTF-8編碼的最大長度是4個字節。從表3-2可以看出,4字節模板有21個x,即可以容納21位二進制數字。Unicode的最大碼位0x10FFFF也只有21位。
????????如:
“漢”字的Unicode編碼是0x6C49。0x6C49在0x0800-0xFFFF之間,使用用3字節模板:1110xxxx 10xxxxxx 10xxxxxx。將0x6C49寫成二進制是:0110 1100 0100 1001, 用這個比特流依次代替模板中的x,得到:11100110 10110001 10001001,即E6 B1 89。
????????又如:
Unicode編碼0x20C30在0x010000-0x10FFFF之間,使用4字節模板:11110xxx 10xxxxxx 10xxxxxx 10xxxxxx。將0x20C30寫成21位二進制數字(不足21位就在前面補0):0 0010 0000 1100 0011 0000,用這個比特流依次代替模板中的x,得到:11110000 10100000 10110000 10110000,即F0 A0 B0 B0。
3. UTF-8轉換為UNICODE
總結
以上是生活随笔為你收集整理的UNICODE与UTF-8的转换的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: NLP语料、数据集
- 下一篇: jieba分词实现原理(C++版 + p