《Python Cookbook 3rd》笔记(2.10):在正则式中使用 Unicode
生活随笔
收集整理的這篇文章主要介紹了
《Python Cookbook 3rd》笔记(2.10):在正则式中使用 Unicode
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
在正則式中使用 Unicode
問題
你正在使用正則表達(dá)式處理文本,但是關(guān)注的是 Unicode 字符處理。
解法
默認(rèn)情況下 re 模塊已經(jīng)對(duì)一些 Unicode 字符類有了基本的支持。比如, \d 已經(jīng)匹配任意的 unicode 數(shù)字字符了:
>>> import re >>> num = re.compile('\d+') >>> # ASCII digits >>> num.match('123') <_sre.SRE_Match object at 0x1007d9ed0> >>> # Arabic digits >>> num.match('\u0661\u0662\u0663') <_sre.SRE_Match object at 0x101234030> >>>如果你想在模式中包含指定的 Unicode 字符,你可以使用 Unicode 字符對(duì)應(yīng)的轉(zhuǎn)義序列 (比如 nuFFF 或者 nUFFFFFFF )。比如,下面是一個(gè)匹配幾個(gè)不同阿拉伯編碼頁面中所有字符的正則表達(dá)式:
>>> arabic = re.compile('[\u0600-\u06ff\u0750-\u077f\u08a0-\u08ff]+') >>>當(dāng)執(zhí)行匹配和搜索操作的時(shí)候,最好是先標(biāo)準(zhǔn)化并且清理所有文本為標(biāo)準(zhǔn)化格式。但是同樣也應(yīng)該注意一些特殊情況,比如在忽略大小寫匹配和大小寫轉(zhuǎn)換時(shí)的行為。
>>> pat = re.compile('stra\u00dfe', re.IGNORECASE) >>> s = 'stra?e' >>> pat.match(s) # Matches <_sre.SRE_Match object at 0x10069d370> >>> pat.match(s.upper()) # Doesn't match >>> s.upper() # Case folds 'STRASSE' >>>討論
混合使用 Unicode 和正則表達(dá)式通常會(huì)讓你抓狂。如果你真的打算這樣做的話,最好考慮下安裝第三方正則式庫,它們會(huì)為 Unicode 的大小寫轉(zhuǎn)換和其他大量有趣特性提供全面的支持,包括模糊匹配。
總結(jié)
以上是生活随笔為你收集整理的《Python Cookbook 3rd》笔记(2.10):在正则式中使用 Unicode的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 《C++ Primer 5th》笔记(8
- 下一篇: 如何使用docker配置深度学习开发环境