當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

我理解的几种字符编码方式

發布時間：2025/3/20 编程问答 17 豆豆

生活随笔收集整理的這篇文章主要介紹了我理解的几种字符编码方式小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

ANSII ?這個是最基礎的，只占用1個字節，反正鍵盤上能看到的顯示的字符都能表示出來，范圍是0x00~0x7F,保存英文字符夠用了！后來，估計是覺得不夠用，把128~255也擴展了出來。

ANSI ? 是ANSII的擴展，因為ANSII只能表示所有的英文和英文標點符號，完全沒有考慮廣大非英文國家人的感受。所以就做了擴展（貌似是windows），每個國家的文字是不同的，所以各個國家也就定義了自己的編碼格式和規則。比如中國（簡體中文），就使用GB2312編碼格式，而臺灣（繁體中文），就使用了Big5編碼方式。中國漢字原來用GB2312原來也挺好的，但是中國博大精深，漢字太多，又做了擴展，變為了GBK，后來還是不夠用，又擴大到了GB18030。各個國家之間是完全不互通的。也就是說同樣是ANSI編碼，一份文件中，有兩種編碼方式，GB2312，和Big5，自然有一部分亂碼。

Unicode ANSI出來以后，混亂了一篇，國際標準化組織就看不下去了，推出了全世界統一的編碼規則，這個時候就出現了Unicode，但是Unicode只是一個符號集，它只規定了符號的二進制代碼，卻沒有規定這個二進制代碼應該如何存儲。也就是說unicode規定了全世界所有的文字的編碼，每個字（無論中文，英文，埃及文，愛斯基摩文）都有一個唯一的編號，但是英文原來用ANSII編碼的時候只需要1個字節就夠了，但是用Unicode，可能需要3~4個字節，這個讓很多英文國家立馬不爽了！有沒有辦法統一了，怎么辦呢，UTF-8編碼方式就出現了。

UTF-8是Unicode編碼的一種編碼方式，它是一種變長的編碼方式，當然也有其他格式的Unicode的編碼方式（UTF-16，UTF-32...)，但是這些都不常用，在互聯網世界中最常用的就是這種編碼方式了。UTF-8雖然是Unicode編碼的的一種編碼方式，但是對于n個字節的編碼（n>1)，兩者編出來的碼卻是不相同的。

UTF-8的編碼規則很簡單，只有二條：
1）對于單字節的符號，字節的第一位設為0，后面7位為這個符號的unicode碼。因此對于英語字母，UTF-8編碼和ASCII碼是相同的。
2）對于n字節的符號（n>1），第一個字節的前n位都設為1，第n+1位設為0，后面字節的前兩位一律設為10。剩下的沒有提及的二進制位，全部為這個符號的unicode碼。

下表總結了編碼規則，字母x表示可用編碼的位。

下面是我在網上找到的一個例子：

下面，還是以漢字“嚴”為例，演示如何實現UTF-8編碼。已知“嚴”的unicode是4E25（100111000100101），根據上表，可以發現4E25處在第三行的范圍內（0000 0800-0000 FFFF），因此“嚴”的UTF-8編碼需要三個字節，即格式是“1110xxxx 10xxxxxx 10xxxxxx”。然后，從“嚴”的最后一個二進制位開始，依次從后向前填入格式中的x，多出的位補0。這樣就得到了，“嚴”的UTF-8編碼是“11100100 10111000 10100101”，轉換成十六進制就是E4B8A5。

轉載于:https://www.cnblogs.com/lh-ty/p/6887964.html

總結

以上是生活随笔為你收集整理的我理解的几种字符编码方式的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： python requests库的简单使
下一篇： RedisTemplate实现事物问题剖

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

编程问答

我理解的几种字符编码方式

總結