Python之令人心烦意乱的字符编码与转码
生活随笔
收集整理的這篇文章主要介紹了
Python之令人心烦意乱的字符编码与转码
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
ASC-II碼:英文1個字節(jié)(8 byte),不支持中文;
高大上的中國,擴展出自己的gbk、gb2312、gb2318等字符編碼。?
由于各個國家都有自己的編碼,于是就需要統(tǒng)一的編碼形式用于國際流傳,防止亂碼,就有了萬國碼;
萬國碼:unicode(默認(rèn)無論中文還是英文都是至少占用2個字節(jié)),為了解決占用字節(jié)變多,占用空間增倍的情況,又衍生了擴展集utf-8;
UTF-8:原有的ASC-II碼中內(nèi)容仍用1個字節(jié),歐洲國家的字符用2個字節(jié),漢字等其他的字符用3個字節(jié)
?
?
decode: 解碼到unicode,encode: 將unicode編碼到其他格式(如,utf-8,gbk等)
日常中如果我們想要讀取其他國家的代碼時,先解碼(decode)為萬國碼,再編碼(encode)為我們適用的編碼形式讀取;
比如:GBK到uff-8,先將GBK(decode)到 unicode,再(encode)到utf-8;
?
轉(zhuǎn)載于:https://www.cnblogs.com/feigebaqi/p/9138218.html
總結(jié)
以上是生活随笔為你收集整理的Python之令人心烦意乱的字符编码与转码的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 转:org.apache.maven.a
- 下一篇: 工银微信信用卡几张卡?只激活一张可以吗?