當(dāng)前位置：首頁 > 编程语言 > python >内容正文

python

解码python_Python解码

發(fā)布時間：2025/3/20 python 15 豆豆

生活随笔收集整理的這篇文章主要介紹了解码python_Python解码小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

2016.3.3部分

上手爬蟲第一天，就遇到了一個麻煩的問題：解碼解不出來。

先上源碼：

import urllib

import urllib.request

data = {}

data['word'] = 'LEGO'

url_values = urllib.parse.urlencode(data)

url = 'http://www.baidu.com/s?'

full_url = url + url_values

response = urllib.request.urlopen(url)

data = response.read()

data = data.decode('utf8')

print (data)

這段代碼就等于是在百度搜索“LEGO”，然后讀取搜索到的網(wǎng)頁結(jié)果。跑一下，發(fā)現(xiàn)提示UnicodeDecodeError: 'utf-8' codec can't decode byte 0xbe in position 60: invalid start byte。上網(wǎng)查了下資料，發(fā)現(xiàn)有幾三個地方?jīng)]太搞懂，搞懂了就能解決這個解碼問題了：

response.read()返回的到底是什么編碼字符？是html的代碼對吧，那么這個html代碼是用什么方法來編碼的呢？

decode('?')中需要用什么編碼方式才能正確解碼？如果知道問題1的答案，那么這個問題2也容易解決了。由于不知道是什么編碼方式，那么將?一個個使用uft8、big5、unicode、gbk等編碼方式嘗試，結(jié)果都是類似的提示，只是報錯的行數(shù)不同。

我在網(wǎng)上嘗試了一下解碼后再次編碼的方法，變成了data = data.decode('utf8').encode('gbk')，看能不能有突破，發(fā)現(xiàn)不行后，刪掉了后加上的代碼，只保留data = data.decode('utf8')，結(jié)果運行.py后還一直提示UnicodeEncodeError: 'gbk' codec can't encode character '\xbb' in position 25145: illegal multibyte sequence，最后只能是將整行注釋掉才恢復(fù)正常(輸出html源碼)，但去掉注釋后又彈出encode提示，代碼中明明沒有了encode啊！我的內(nèi)心幾乎是崩潰的！

在繼續(xù)查資料后，決定先放下這個解碼問題，先做好數(shù)據(jù)存儲那一塊，再回頭慢慢解決切割和解碼問題，沒準(zhǔn)到時候就懂了。

2016.3.10部分

在使用了Requests和BeautifulSoup第三方庫后，打算將爬到的數(shù)據(jù)打印出來看一下：

import requests

import urllib.parse

from bs4 import BeautifulSoup

response = requests.get('http://www.baidu.com')

soup = BeautifulSoup(response.text, "html.parser")

print (soup.title.text)

print (soup.body.text)

結(jié)果，還是報了跟之前一樣的編碼錯誤：UnicodeEncodeError: 'gbk' codec can't encode character '\xa0' in position 12734: illegal multibyte sequence，于是繼續(xù)查，終于找到原因了。

解決方法如下：

忽略cmd的顯示問題，直接存為文件輸出

其實呢，這是windows控制臺本身的顯示編碼，在dos窗口標(biāo)題，右鍵菜單選擇屬性，可以看到控制臺的默認(rèn)編碼為GBK(cp936)。

所以說，問題不在python，不在網(wǎng)頁，而是那個呆板的dos控制臺。

解決方法呢，簡單點可以寫到本地文件中查看，復(fù)雜點的就留給你去折騰了。注意，這只是dos控制臺的顯示問題，對于其中字符串的處理完全不受阻礙。看不看得見，它就在內(nèi)存里，該干嘛還干嘛。

使用函數(shù)將爬取的數(shù)據(jù)保存為文件

def save_file(data, path):

files = open(path, 'wb')

files.write(data)

files.close()

save_file(soup.title.text, 'p7_title.txt')

save_file(soup.body.text, 'p7_body.txt')

結(jié)果報了另外一個錯：TypeError: a bytes-like object is required, not 'str'，那么再對爬到的數(shù)據(jù)使用strip再encode的方法

save_file(soup.title.text.strip('\00').encode(), 'p7_title.txt')

save_file(soup.body.text.strip('\00').encode(), 'p7_body.txt')

如此一來，雖然是繞彎解決的，沒有直面問題，但還是順利解決了問題，并且已經(jīng)拿到了需要的數(shù)據(jù)。

相關(guān)資料

總結(jié)

以上是生活随笔為你收集整理的解码python_Python解码的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

python_python

上一篇： python穷举法搬砖_python 穷
下一篇： textaligncenter仍然不居中

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

python

解码python_Python解码

總結(jié)