Python3爬虫之中文乱码问题分析与解决方法
生活随笔
收集整理的這篇文章主要介紹了
Python3爬虫之中文乱码问题分析与解决方法
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
前言
分析
解決方法
前言:
今天簡單爬取一個網(wǎng)頁的源代碼時,發(fā)現(xiàn)出現(xiàn)了亂碼
python代碼:
部分截圖:
分析:出現(xiàn)這樣的情況是什么原因呢?
(1)我們先來測試一下python3的默認編碼是什么
import sysprint('目前系統(tǒng)的編碼為:',sys.getdefaultencoding()) name1="驚鴻一面" name2=name1.encode("utf-8")#str通過(encode)轉(zhuǎn)為bytes print("name1的類型:",type(name1)) print("name2的類型",type(name2)) print(name2)運行結(jié)果:
(2)知識點:
- python3默認編碼為utf-8(unicode的一個子集,也是屬于unicode,這也就是為什么有人說python3的默認編碼是unicode,實際上是和utf-8是一樣的)
- 字符串用str表示,編碼后的字符串用二進制bytes表示
- 字符串通過編碼轉(zhuǎn)換為字節(jié)碼,字節(jié)碼通過解碼轉(zhuǎn)換為字符串
str通過(encode)轉(zhuǎn)為bytes,bytes通過(decode)轉(zhuǎn)為str
(3)原因總結(jié):
Python3的默認編碼是utf-8,所有的數(shù)據(jù)他都會以utf-8進行編碼(encode)。因此,Python3將目標(biāo)網(wǎng)站的源碼爬取之后進行utf-8編碼,但我們所爬取的目標(biāo)網(wǎng)站是GB2312編碼,與Python3的默認編碼不同,因而造成亂碼
解決方案:
使用通用的編碼格式
(4)注:
- str類型的對象都是unicode,因此對于str類型的對象只有encode()方法,沒有decode()方法(如果運行,會報錯)
原因是:只有bytes(二進制)的值才能decode,你字符串是嗎??!! - 避免出現(xiàn)亂碼的準(zhǔn)則:
遵循編碼使用哪種格式,解碼就使用哪種格式。 - 出現(xiàn)類似UnicodeEncodeError: 'gb2312' codec can't encode character '\xb3' in position 293: illegal multibyte sequence的原因是,你需要解碼的文件中有些中文字符無法進行解碼(有些中文字符是不在GB2312范圍內(nèi)的)
此時,我們可以使用它GBK或者它的父集GB18030
(5)我們以幾種常見的編碼格式進行encode測試
import requests req= requests.get("http://www.ccit.js.cn") req_text1=req.text.encode("utf-8") req_text2=req.text.encode("GB2312") req_text3=req.text.encode("GB18030") print(req_text1)#成功編碼成bytes print(req_text2)#UnicodeEncodeError: 'gb2312' codec can't encode character '\xb3' in position 293: illegal multibyte sequence print(req_text3)#成功編碼成bytes(6)接著上面又做了decode測試,遵行編碼使用準(zhǔn)則,但是還是亂碼!!
import requestsreq= requests.get("http://www.ccit.js.cn")req_text1=req.text.encode("utf-8").decode("utf-8") req_text2=req.text.encode("utf-8").decode("GB2312") req_text3=req.text.encode("utf-8").decode("GB18030")req_text4=req.text.encode("GB18030").decode("utf-8") req_text5=req.text.encode("GB18030").decode("GB2312") req_text6=req.text.encode("GB18030").decode("GB18030")print(req_text1)#成功但是亂碼 print(req_text2)#UnicodeDecodeError: 'gb2312' codec can't decode byte 0xc3 in position 297: illegal multibyte sequence print(req_text3)#成功但是亂碼 print(req_text4)#UnicodeDecodeError: 'utf-8' codec can't decode byte 0x81 in position 293: invalid start byte print(req_text5)#UnicodeDecodeError: 'gb2312' codec can't decode byte 0x81 in position 293: illegal multibyte sequence print(req_text6)#成功但是亂碼解決方法:
那到底怎樣才能解決呢???請看如下代碼:
import requests req= requests.get("http://www.ccit.js.cn") req_text=req.text.encode("latin1").decode("GBK") print(req_text)這里進行encode時使用了latin1。
- Latin1是ISO-8859-1的別名,有些環(huán)境下寫作Latin-1。ISO-8859-1編碼是單字節(jié)編碼,向下兼容ASCII,其編碼范圍是0x00-0xFF,0x00-0x7F之間完全和ASCII一致,0x80-0x9F之間是控制字符,0xA0-0xFF之間是文字符號。
- 因為ISO-8859-1編碼范圍使用了單字節(jié)內(nèi)的所有空間,在支持ISO-8859-1的系統(tǒng)中傳輸和存儲其他任何編碼的字節(jié)流(bytes)都不會被拋棄。換言之,把其他任何編碼的字節(jié)流當(dāng)作ISO-8859-1編碼看待都沒有問題。
總結(jié)
以上是生活随笔為你收集整理的Python3爬虫之中文乱码问题分析与解决方法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 影流之主是什么位置 免费观影第一站
- 下一篇: CGCTF-Web-签到题