當(dāng)前位置：首頁 > 编程语言 > python >内容正文

python

《Python Cookbook 3rd》笔记（2.10）：在正则式中使用 Unicode

發(fā)布時(shí)間：2023/12/13 python 41 豆豆

生活随笔收集整理的這篇文章主要介紹了《Python Cookbook 3rd》笔记（2.10）：在正则式中使用 Unicode 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

在正則式中使用 Unicode

問題

你正在使用正則表達(dá)式處理文本，但是關(guān)注的是 Unicode 字符處理。

解法

默認(rèn)情況下 re 模塊已經(jīng)對(duì)一些 Unicode 字符類有了基本的支持。比如， \d 已經(jīng)匹配任意的 unicode 數(shù)字字符了：

>>> import re >>> num = re.compile('\d+') >>> # ASCII digits >>> num.match('123') <_sre.SRE_Match object at 0x1007d9ed0> >>> # Arabic digits >>> num.match('\u0661\u0662\u0663') <_sre.SRE_Match object at 0x101234030> >>>

如果你想在模式中包含指定的 Unicode 字符，你可以使用 Unicode 字符對(duì)應(yīng)的轉(zhuǎn)義序列 (比如 nuFFF 或者 nUFFFFFFF )。比如，下面是一個(gè)匹配幾個(gè)不同阿拉伯編碼頁面中所有字符的正則表達(dá)式：

>>> arabic = re.compile('[\u0600-\u06ff\u0750-\u077f\u08a0-\u08ff]+') >>>

當(dāng)執(zhí)行匹配和搜索操作的時(shí)候，最好是先標(biāo)準(zhǔn)化并且清理所有文本為標(biāo)準(zhǔn)化格式。但是同樣也應(yīng)該注意一些特殊情況，比如在忽略大小寫匹配和大小寫轉(zhuǎn)換時(shí)的行為。

>>> pat = re.compile('stra\u00dfe', re.IGNORECASE) >>> s = 'stra?e' >>> pat.match(s) # Matches <_sre.SRE_Match object at 0x10069d370> >>> pat.match(s.upper()) # Doesn't match >>> s.upper() # Case folds 'STRASSE' >>>

討論

混合使用 Unicode 和正則表達(dá)式通常會(huì)讓你抓狂。如果你真的打算這樣做的話，最好考慮下安裝第三方正則式庫，它們會(huì)為 Unicode 的大小寫轉(zhuǎn)換和其他大量有趣特性提供全面的支持，包括模糊匹配。

總結(jié)

以上是生活随笔為你收集整理的《Python Cookbook 3rd》笔记（2.10）：在正则式中使用 Unicode的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：《C++ Primer 5th》笔记（8
下一篇：如何使用docker配置深度学习开发环境

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

python

《Python Cookbook 3rd》笔记（2.10）：在正则式中使用 Unicode

在正則式中使用 Unicode

問題

解法

討論

總結(jié)