Python-编码格式
python編碼介紹
python3在內存中是用unicode編碼方式存儲的,所以不能直接儲存和傳輸,要轉化為其他編碼進行儲存和傳輸。
字符串通過編碼轉換成字節碼,字節碼通過解碼成為字符串
轉碼(都變為字節)
encode:str --> bytes
解碼(可以將字節解碼成指定的編碼格式)
decode:bytes --> str
關于ascii編碼
因為計算機只能處理數字,如果要處理文本,就必須先把文本轉換為數字才能處理。最早的計算機在設計時采用8個比特(bit)作為一個字節(byte),所以,一個字節能表示的最大的整數就是255(二進制11111111=十進制255),如果要表示更大的整數,就必須用更多的字節。比如兩個字節可以表示的最大整數是65535,4個字節可以表示的最大整數是4294967295。
由于計算機是美國人發明的,因此,最早只有127個字符被編碼到計算機里,也就是大小寫英文字母、數字和一些符號,這個編碼表被稱為ASCII編碼,比如大寫字母A的編碼是65,小寫字母z的編碼是122。
但是要處理中文顯然一個字節是不夠的,至少需要兩個字節,而且還不能和ASCII編碼沖突,所以,中國制定了GB2312編碼,用來把中文編進去。
因此,Unicode應運而生。Unicode把所有語言都統一到一套編碼里,這樣就不會再有亂碼問題了。
關于Unicode編碼
Unicode把所有語言都統一到一套編碼里,這樣就不會再有亂碼問題了。
ASCII編碼是1個字節,而Unicode編碼通常是2個字節。
字母A用ASCII編碼是十進制的65,二進制的01000001;
字符0用ASCII編碼是十進制的48,二進制的00110000,注意字符’0’和整數0是不同的;
漢字中已經超出了ASCII編碼的范圍,用Unicode編碼是十進制的20013,二進制的01001110 00101101。
你可以猜測,如果把ASCII編碼的A用Unicode編碼,只需要在前面補0就可以,因此,A的Unicode編碼是00000000 01000001。
如果統一成Unicode編碼,亂碼問題從此消失了。但是,如果你寫的文本基本上全部是英文的話,用Unicode編碼比ASCII編碼需要多一倍的存儲空間,在存儲和傳輸上就十分不劃算。
所以,本著節約的精神,又出現了把Unicode編碼轉化為“可變長編碼”的UTF-8編碼。UTF-8編碼把一個Unicode字符根據不同的數字大小編碼成1-6個字節,常用的英文字母被編碼成1個字節,漢字通常是3個字節,只有很生僻的字符才會被編碼成4-6個字節。如果你要傳輸的文本包含大量英文字符,用UTF-8編碼就能節省空間:
在計算機內存中,統一使用Unicode編碼,當需要保存到硬盤或者需要傳輸的時候,就轉換為UTF-8編碼。
用記事本編輯的時候,從文件讀取的UTF-8字符被轉換為Unicode字符到內存里,編輯完成后,保存的時候再把Unicode轉換為UTF-8保存到文件
瀏覽網頁的時候,服務器會把動態生成的Unicode內容轉換為UTF-8再傳輸到瀏覽器
python3的編碼細節
python2中默認使用ascii,python3中默認使用utf-8
Python2中,str就是編碼后的結果bytes,str=bytes,所以s只能decode。
python3中的字符串與python2中的u’字符串’,都是unicode,只能encode,所以無論如何打印都不會亂碼,因為可以理解為從內存打印到內存,即內存->內存,unicode->unicode
python3中,str是unicode,當程序執行時,無需加u,str也會被以unicode形式保存新的內存空間中,str可以直接encode成任意編碼格式,
比如: s.encode(‘utf-8’),s.encode(‘gbk’)
unicode(str)-----encode---->utf-8(bytes)
utf-8(bytes)-----decode---->unicode
在windows終端編碼為gbk,linux是UTF-8.
查詢編碼格式
需要導入包
import chardet 沒有的話自行安裝
查詢文件編碼格式
def get_encode_info(file):with open(file, 'rb') as f:return chardet.detect(f.read())['encoding']查詢字符串…內容編碼格式
def get_encode_info_s(file):return chardet.detect(file.encode())['encoding']編碼轉換
文件編碼轉換
字符串…內容編碼轉換
name = r"\u6697\u88d4\u5251\u9b54" print("解碼之前的編碼格式:"+get_encode_info_s(name)) # 轉碼為utf-8(默認的), 然后解碼為python能識別的unicode碼 str2 = name.encode().decode("unicode-escape") print("-----------"+str2) print("解碼之后的編碼格式:"+get_encode_info_s(str2))結果:
解碼之前的編碼格式:ascii
-----------暗裔劍魔
解碼之后的編碼格式:utf-8
文件編碼轉換
from chardet.universaldetector import UniversalDetector# 獲取文件編碼 def get_encode_info(file):with open(file, 'rb') as f:detector = UniversalDetector()for line in f.readlines():detector.feed(line)if detector.done:breakdetector.close()return detector.result['encoding']def read_file(file):with open(file, 'rb') as f:return f.read()def write_file(content, file):with open(file, 'wb') as f:f.write(content)def convert_encode2utf8(file, original_encode, des_encode):file_content = read_file(file)file_decode = file_content.decode(original_encode,'ignore')file_encode = file_decode.encode(des_encode)write_file(file_encode, file)# fileName文件全路徑 # code 需要轉換為什么編碼,默認utf-8 def fileDecode(fileName,code="utf-8"):file_content = read_file(fileName)encode_info = get_encode_info(fileName)if encode_info != code:convert_encode2utf8(fileName, encode_info, code)return get_encode_info(fileName)if __name__ == "__main__":filename1 = r'C:\Users\huanmin\Desktop\源碼\CHANGES.txt'print(fileDecode(filename1))我們可以通過Notepad++ 打開文件右下角可以看到當前文件的編碼格式
轉碼后效果
總結
以上是生活随笔為你收集整理的Python-编码格式的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 耳机插在电脑上没声音linux,解决li
- 下一篇: itext-asian-5.2.0