當前位置：首頁 > 编程语言 > python >内容正文

python

python最早引入json的版本_详解Python在使用JSON时需要注意的编码问题

發布時間：2024/10/14 python 34 豆豆

生活随笔收集整理的這篇文章主要介紹了 python最早引入json的版本_详解Python在使用JSON时需要注意的编码问题小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

寫這篇文章的緣由是我使用 reqeusts 庫請求接口的時候, 直接使用請求參數里的 json 字段發送數據, 但是服務器無法識別我發送的數據, 排查了好久才知道 requests 內部是使用 json.dumps 將字符串轉成 json 的, 而 json.dumps 默認情況下會將非ASCII 字符轉義, 也就是我發送數據中的中文被轉義了, 所以服務器無法識別. 這篇文章雖然是 json.dumps 問題的總結, 但也會涉及到字符編碼問題, 所以就簡單先說一下字符編碼.

Python 中的字符編碼

在 Python3 中, 字符在內存中是使用 Unicode 存儲的, 常規的字符使用兩個字節表示, 一些很生僻的字符就需要四個字節. 默認使用 Unicode 存儲是什么意思呢, 那就是例子來解釋一下, 在 Python Shell 中輸入以下字符串 '\u4e2d\u6587', 觀察其輸出:

In [51]: '\u4e2d\u6587'

Out[51]: '中文'

輸出的為中文兩個字. 其實 \u4e2d 和 \u6587 分別表示中和文的 Unicode 編碼(術語稱為碼點)的十六進制表示, 在 Python3 中以 \u 開頭的字符串被解析為 Unicode 字符, 然后通過其十六進制碼點解析出具體的字符, 所以中文的內存表示即為 \u4e2d\u6587.

獲取字符 Unicode 碼點

標準庫提供了 ord 函數輸出一個字符的 Unicode 碼點, 使用 chr 函數將碼點轉換成字符, 下面是示例:

In [54]: ord('中')

Out[54]: 20013

In [56]: chr(20013)

Out[56]: '中'

輸出的碼點是使用十進制表示的, 可以使用以下代碼將整數格式化成十六進制字符串:

'{0:04x}'.format(20013)

使用 json.dumps

有了前面的鋪墊, 就可以來說說 json.dumps 了. 下面以一個例子展開:

In [121]: json.dumps('中文', ensure_ascii=True)

Out[121]: '"\\u4e2d\\u6587"'

In [122]: json.dumps('中文', ensure_ascii=False)

Out[122]: '"中文"'

可以看到, 在 ensure_ascii 為 True 的情況下, 中文被編碼成了 Unicode 碼, 為 False 才能正常顯示, 但是這跟 ASCII 有什么關系呢? 來看一下官方文檔對這個參數的解釋:

如果 ensure_ascii 是 true (即默認值)，輸出保證將所有輸入的非 ASCII 字符轉義。如果 ensure_ascii 是 false，這些字符會原樣輸出。

現在稍微明白了, 在 ensure_ascii 為 True 的情況下, 如果字符串中存在非ASCII 字符就將其轉義, 根據結果可以知道這個字符被轉義為 Unicode 碼并格式化成了一個字符串, 注意 "\\u4e2d\\u6587" 與 "\u4e2d\\u6587" 是不同的, 前者是長度為 12 的字符串, 后者會被 Python 直接解析為中文, 長度為 2. 這也就是我一開始出現的問題, 直接將轉義的字符串在網絡上傳輸可能會無法被識別. 比如中文被轉義成 \\u4e2d\\u6587, 而服務器如果不知道它是被轉義過的字符串, 那它就是一個長度為 12 的普通字符串, 肯定會識別出錯. 而將 ensure_ascii 設為 False 就不會進行轉義, 使用原始字符.

識別轉義字符

如果服務器收到數據后發現是被轉化過的, 那怎么識別呢? 其實被轉義字符串與使用 unicode_escape 對字符串進行編碼再使用 utf-8 進行解碼的結果一致, 代碼如下:

In [129]: msg

Out[129]: '中文'

In [130]: msg.encode('unicode_escape').decode('utf-8')

Out[130]: '\\u4e2d\\u6587'

所以識別只要反過來使用 utf-8 編碼再使用 unicode_escape 解碼就可以了.

轉義是如何進行的

現在來看一下 json 到底是怎么對字符進行轉義的. 在 json.dumps 源碼中仔細調試的話會發現, 它調用的是 JSONEncoder.encode 方法, 而 encode 中的代碼片段如下:

if self.ensure_ascii:

return encode_basestring_ascii(o)

else:

return encode_basestring(o)

它會根據 ensure_ascii 的值選擇調用函數. 而 encode_basestring_ascii 的值是 (c_encode_basestring_ascii or py_encode_basestring_ascii), 也就是默認是用 C 實現的版本, 其次使用 Python 實現的版本, 既然有 Python 版本, 當然要看一下是怎么實現的, py_encode_basestring_ascii 可以直接使用 from json.encoder import py_encode_basestring_ascii 導入, 直接在其內部就可以調試. 下面是其源碼:

def py_encode_basestring_ascii(s):

"""Return an ASCII-only JSON representation of a Python string

"""

def replace(match):

s = match.group(0)

try:

return ESCAPE_DCT[s]

except KeyError:

n = ord(s)

if n < 0x10000:

return '\\u{0:04x}'.format(n)

#return '\\u%04x' % (n,)

else:

# surrogate pair

n -= 0x10000

s1 = 0xd800 | ((n >> 10) & 0x3ff)

s2 = 0xdc00 | (n & 0x3ff)

return '\\u{0:04x}\\u{1:04x}'.format(s1, s2)

return '"' + ESCAPE_ASCII.sub(replace, s) + '"'

從最后的 return 可以看到它實際上是正則替換最后在前后添加雙引號. ESCAPE_ASCII 的定義如下:

ESCAPE_ASCII = re.compile(r'([\\"]|[^\ -~])')

其中 ([\\"] 用于匹配 \\ 和 ", 而 [^\ -~] 表示 \ -~ 取反(這里的反斜杠貌似是對空格進行轉義, 我不是很理解, 不進行轉義依舊可以匹配到), 在 ASCII 表里, 空格字符對應十進制是 40, ~ 是 176, 這是所有的可打印字符, 取反就是所有編碼不在 40 ~ 176 的字符, 所以中文就會被匹配到, 下面為 ASCII表:

對于匹配到的字符, 會傳入回調函數 replace 做轉義. replace 函數中的 ESCAPE_DCT 為:

ESCAPE_DCT = {

'\\': '\\\\',

'"': '\\"',

'\b': '\\b',

'\f': '\\f',

'\n': '\\n',

'\r': '\\r',

'\t': '\\t',

}

會對常用字符進行轉義, 如果失敗就獲取它的 Unicode 碼點, 然后判斷是否為小于 0x10000 即是否為兩字節字符(兩字節最大為0xFFFF) , 如果是就格式化為 Unicode 碼, 如果不是就使用四字節表示.

總結

記得使用 requests 發送 JSON 數據時將中文編碼.

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支持腳本之家。

總結

以上是生活随笔為你收集整理的python最早引入json的版本_详解Python在使用JSON时需要注意的编码问题的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：当前操作系统缺少黑体等字体_操作系统开发
下一篇：安卓个人信息界面_LOL手游上架，安卓+

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

python

python最早引入json的版本_详解Python在使用JSON时需要注意的编码问题

總結