【Python 每日一技】文本查找和替换
生活随笔
收集整理的這篇文章主要介紹了
【Python 每日一技】文本查找和替换
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
文章目錄
- 1 問題
- 2. 解決方案
- 3. 討論
1 問題
你希望查找并替換一段文本中的模式串。
2. 解決方案
如果以簡單的字符串字面量形式給出模式串,那么你通常可以使用基本的字符串方法如 str.replace() ,例如:
>>> text = 'yeah, but no, but yeah, but no, but yeah' >>> text.replace('yeah', 'yep') 'yep, but no, but yep, but no, but yep'對于更加復雜的模式串,則需要結合 re 模塊的 sub() 函數/方法以及正則表達式。為了演示,假設你希望將形如 11/27/2012 的日期重寫為 2012-11-27 形式。例如:
>>> text = 'Today is 11/27/2012. PyCon starts 3/13/2013.' >>> import re >>> re.sub(r'(\d+)/(\d+)/(\d+)', r'\3-\1-\2', text) 'Today is 2012-11-27. PyCon starts 2013-3-13.'在 re.sub() 函數中,第一個參數用于文本匹配的正則表達式,第二個參數是用于進行替換的文本模式,其中的反斜杠加數字如 \3 指的是第一個參數中的捕捉分組編號。
如果你希望使用某個正則表達式進行多次重復的文本匹配,那么可以考慮提前對其進行編譯以提高執行的速度。例如:
>>> text = 'Today is 11/27/2012. PyCon starts 3/13/2013.' >>> import re >>> date_pattern = re.compile(r'(\d+)/(\d+)/(\d+)') >>> date_pattern.sub(r'\3-\1-\2', text) 'Today is 2012-11-27. PyCon starts 2013-3-13.'對于復雜的文本替換,還可以考慮定義一個用于文本替換的回調函數。例如:
>>> from calendar import month_abbr >>> def change_date(m): ... mon_name = month_abbr[int(m.group(1))] ... return '{} {} {}'.format(m.group(2), mon_name, m.group(3)) ... >>> re.sub(r'(\d+)/(\d+)/(\d+)', change_date, text) 'Today is 27 Nov 2012. PyCon starts 13 Mar 2013.' >>> date_pattern.sub(change_date, text) 'Today is 27 Nov 2012. PyCon starts 13 Mar 2013.'如上所述,作為輸入,傳入替換回調函數的實參是類似 match() 和 find() 以及 search() 等函數返回的匹配對象。在回調函數中通過調用匹配對象的 group() 方法以剝離出想要的部分。
如果你除了想獲取替換后的文本之外,還希望知道發生了多少次替換,那么可以使用 re.subn() 函數,例如:
>>> text = 'Today is 11/27/2012. PyCon starts 3/13/2013.' >>> re.subn(r'(\d+)/(\d+)/(\d+)', r'\3-\1-\2', text) ('Today is 2012-11-27. PyCon starts 2013-3-13.', 2) >>> text_with_replacement, num = re.subn(r'(\d+)/(\d+)/(\d+)', r'\3-\1-\2', text) >>> text_with_replacement 'Today is 2012-11-27. PyCon starts 2013-3-13.' >>> num 23. 討論
對于使用正則表達式進行文本的搜索和替換,基本上都逃不過上述 re.sub() 函數的用法。實際上,最有挑戰性是其實是寫出正確的正則表達式。
總結
以上是生活随笔為你收集整理的【Python 每日一技】文本查找和替换的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: qt画个灰度直方图
- 下一篇: 软件架构的发展及研究现状