當前位置：首頁 > 编程语言 > python >内容正文

python

Python3 正则表达式特殊符号及用法（详细列表）

發布時間：2025/3/21 python 17 豆豆

生活随笔收集整理的這篇文章主要介紹了 Python3 正则表达式特殊符号及用法（详细列表）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

- 表格
- 實例
- - |
  - ^
  - $
  - \
  - - 數字是1 ~ 99：
    - 數字是0：
  - […………]
  - {}
  - 貪婪模式匹配
  - 非貪婪模式匹配
  - \b
  - findall
  - - 注意：
    - 實例1
    - 實例2
    - 實例3
    - 實例4
    - 如何消除findall這種返回方法

表格

字符含義

.	表示匹配除了換行符外的任何字符;注：通過設置 re.DOTALL 標志可以使 . 匹配任何字符（包含換行符）
\|	A \| B，表示匹配正則表達式 A 或者 B
^	1. （脫字符）匹配輸入字符串的開始位置; 2. 如果設置了 re.MULTILINE 標志，^ 也匹配換行符之后的位置
$	1. 匹配輸入字符串的結束位置, 2. 如果設置了 re.MULTILINE 標志，$ 也匹配換行符之前的位置
\	1. 將一個普通字符變成特殊字符，例如 \d 表示匹配所有十進制數字, 2. 解除元字符的特殊功能，例如 . 表示匹配點號本身, 3. 引用序號對應的子組所匹配的字符串, 4. 詳見下方列舉
[...]	字符類，匹配所包含的任意一個字符: 注1：連字符 - 如果出現在字符串中間表示字符范圍描述；如果如果出現在首位則僅作為普通字符; 注2：特殊字符僅有反斜線 \ 保持特殊含義，用于轉義字符。其它特殊字符如 *、+、? 等均作為普通字符匹配; 注3：脫字符 ^ 如果出現在首位則表示匹配不包含其中的任意字符；如果 ^ 出現在字符串中間就僅作為普通字符匹配
{M,N}	M 和 N 均為非負整數，其中 M <= N，表示前邊的 RE 匹配 M ~ N 次;注1：{M,} 表示至少匹配 M 次;注2：{,N} 等價于 {0,N};注3：{N} 表示需要匹配 N 次
*	匹配前面的子表達式零次或多次，等價于 {0,}
+	匹配前面的子表達式一次或多次，等價于 {1,}
?	匹配前面的子表達式零次或一次，等價于 {0,1}
*?, +?, ??	默認情況下、+ 和 ? 的匹配模式是貪婪模式（即會盡可能多地匹配符合規則的字符串）； ?、+? 和 ?? 表示啟用對應的非貪婪模式。舉個栗子：對于字符串 "FishCCC"，正則表達式 FishC+ 會匹配整個字符串，而 FishC+? 則匹配 "FishC"。
{M,N}?	同上，啟用非貪婪模式，即只匹配 M 次
(...)	匹配圓括號中的正則表達式，或者指定一個子組的開始和結束位置;注：子組的內容可以在匹配之后被 \數字再次引用 ;舉個栗子：(\w+) \1 可以字符串 “Fish Fish.com” 中的 “Fish Fish”（注意有空格）
(?...)	(? 開頭的表示為正則表達式的擴展語法（下邊這些是 Python 支持的所有擴展語法）;
(?aiLmsux)	1. (? 后可以緊跟著 ‘a’，‘i’，‘L’，‘m’，‘s’，'u'，'x' 中的一個或多個字符，只能在正則表達式的開頭使用; 2. 每一個字符對應一種匹配標志：re-A（只匹配 ASCII 字符），re-I（忽略大小寫），re-L（區域設置），re-M（多行模式）, re-S（. 匹配任何符號），re-X（詳細表達式），包含這些字符將會影響整個正則表達式的規則; 3. 當你不想通過 re.compile() 設置正則表達式標志，這種方法就非常有用啦. 注意，由于 (?x) 決定正則表達式如何被解析，所以它應該總是被放在最前邊（最多允許前邊有空白符）。如果 (?x) 的前邊是非空白字符，那么 (?x) 就發揮不了作用了。
(?:...)	非捕獲組，即該子組匹配的字符串無法從后邊獲取
(?P<name>...)	命名組，通過組的名字（name）即可訪問到子組匹配的字符串
(?P=name)	反向引用一個命名組，它匹配指定命名組匹配的任何內容
(?#...)	注釋，括號中的內容將被忽略
(?=...)	前向肯定斷言。如果當前包含的正則表達式（這里以 … 表示）在當前位置成功匹配，則代表成功，否則失敗。一旦該部分正則表達式被匹配引擎嘗試過，就不會繼續進行匹配了；剩下的模式在此斷言開始的地方繼續嘗試。舉個栗子：love(?=Fish) 只匹配后邊緊跟著 “Fish” 的字符串 “love”
(?!...)	前向否定斷言。這跟前向肯定斷言相反（不匹配則表示成功，匹配表示失敗）;舉個栗子：Fish(?!\.com) 只匹配后邊不是 “.com” 的字符串 “Fish”
(?<=...)	后向肯定斷言。跟前向肯定斷言一樣，只是方向相反。舉個栗子：(?<=love)Fish 只匹配前邊緊跟著 "love" 的字符串 "Fish"
(?<!...)	后向否定斷言。跟前向肯定斷言一樣，只是方向相反。舉個栗子：(?<!Fish)\.com 只匹配前邊不是 "Fish" 的字符串 ".com"
(?(id/name)yes-pattern\|no-pattern)	1. 如果子組的序號或名字存在的話，則嘗試 yes-pattern 匹配模式；否則嘗試 no-pattern 匹配模式2. no-pattern 是可選的,舉個栗子：(<)?(\w+@\w+(?:\.\w+)+)(?(1)>\|$) 是一個匹配郵件格式的正則表達式，可以匹配 <user@fishc.com> 和 'user@fishc.com'，但是不會匹配 '<user@fishc.com' 或 'user@fishc.com>'
\	下邊列舉了由字符 '\' 和另一個字符組成的特殊含義。注意，'\' + 元字符的組合可以解除元字符的特殊功能
\序號	1. 引用序號對應的子組所匹配的字符串，子組的序號從 1 開始計算,2. 如果序號是以 0 開頭，或者 3 個數字的長度。那么不會被用于引用對應的子組，而是用于匹配八進制數字所表示的 ASCII 碼值對應的字符,舉個栗子：(.+) \1 會匹配 “Fish Fish” 或 “55 55”，但不會匹配 "FishFish"（注意，因為子組后邊還有一個空格）
\A	匹配輸入字符串的開始位置
\Z	匹配輸入字符串的結束位置
\b	匹配一個單詞邊界，單詞被定義為 Unicode 的字母數字或下橫線字符,舉個栗子：\bFish\b 會匹配字符串 "love Fish"、"Fish." 或 "(Fish)"
\B	匹配非單詞邊界，其實就是與 \b 相反,舉個栗子：py\B 會匹配字符串 "python"、"py3" 或 "py2"，但不會匹配 "py "、“py.” 或 “py!”
\d	1. 對于 Unicode（str 類型）模式：匹配任何一個數字，包括 [0-9] 和其他數字字符；如果開啟了 re.ASCII 標志，就只匹配 [0-9];2. 對于 8 位（bytes 類型）模式：匹配 [0-9] 中任何一個數字
\D	匹配任何非 Unicode 的數字，其實就是與 \d 相反；如果開啟了 re.ASCII 標志，則相當于匹配 [^0-9]
\s	1. 對于 Unicode（str 類型）模式：匹配 Unicode 中的空白字符（包括 [ \t\n\r\f\v] 以及其他空白字符）；如果開啟了 re.ASCII 標志，就只匹配 [ \t\n\r\f\v];2. 對于 8 位（bytes 類型）模式：匹配 ASCII 中定義的空白字符，即 [ \t\n\r\f\v]
\S	匹配任何非 Unicode 中的空白字符，其實就是與 \s 相反；如果開啟了 re.ASCII 標志，則相當于匹配 [^ \t\n\r\f\v]
\w	1. 對于 Unicode（str 類型）模式：匹配任何 Unicode 的單詞字符，基本上所有語言的字符都可以匹配，當然也包括數字和下橫線；如果開啟了 re.ASCII 標志，就只匹配 [a-zA-Z0-9_];2. 對于 8 位（bytes 類型）模式：匹配 ASCII 中定義的字母數字，即 [a-zA-Z0-9_]
\W	匹配任何非 Unicode 的單詞字符，其實就是與 \w 相反；如果開啟了 re.ASCII 標志，則相當于 [^a-zA-Z0-9_]
轉義符號	正則表達式還支持大部分 Python 字符串的轉義符號：\a，\b，\f，\n，\r，\t，\u，\U，\v，\x，\\ ; 注1：\b 通常用于匹配一個單詞邊界，只有在字符類中才表示“退格”; 注2;：\u 和 \U 只有在 Unicode 模式下才會被識別; 注3：八進制轉義（\數字）是有限制的，如果第一個數字是 0，或者如果有 3 個八進制數字，那么就被認為是八進制數；其他情況則被認為是子組引用；至于字符串，八進制轉義總是最多只能是 3 個數字的長度

實例

|

re.search(r'dog(C|D)','dogC') re.search(r'dog(C|D)','dogD')

^

必須以脫字符后面的字符為輸入字符串的開始位置，才能匹配成功

re.search(r'^dog(C|D)','dogD') re.search(r'^dog(C|D)','l like dogD')

$

必須以這個字符前面的字符為輸入字符串的結束位置，才能匹配成功

re.search(r'dog(C|D)$','l like dogD')

\

解除元字符的特殊功能：\.匹配的就是一個.
\后面如果加數字的話，如果數字是1 ~ 99，那么它表示的引用序號對應的子組所匹配的字符串；如果跟著的數字是0或者是三位的數字，那么它是一個八進制數字，表示的是這個八進制數據所對應的ASCII碼的字符

數字是1 ~ 99：

re.search(r'(dogD)\1','dogDdogD')

\1相當于dogD，因為這里1號子組就是dogD（用括號括了起來）

數字是0：

re.search(r'(dogD)\060','dogD0') re.search(r'(dogD)\060','dogDdogDdogD')

切記是八進制！

re.search(r'(dogD)\141','dogDa')

[…………]

re.search(r'[.]','dogDa.txt')

re.search(r'\.','dogDa.txt')

re.findall(r'[a-z]','dogD.com')

re.findall(r'[\n]','dog.com\n')

最前面的脫字符（表示后面字符除外的字符）：

re.findall(r'[^a-z]','PdogL.Zcom\n')

最后面的脫字符(表示匹配脫字符本身）：

re.findall(r'[a-z^]','^PdogL.Zcom\n')

{}

re.search(r'dogD{3}','dogDDDD')

re.search(r'(dogD){3}','dogDdogDdogD')

注意：
正則表達式里面不能隨意加空格。。

貪婪模式匹配

p='<html><title>l love dogD.com</title></html>' re.search(r'<.+>',p)

非貪婪模式匹配

p='<html><title>l love dogD.com</title></html>' re.search(r'<.+?>',p)

\b

re.findall(r'\bdogD\b','dogD.com!dogD_com(dogD)')

這里所匹配出來的是，
第一個：dogD.com前面這個dogD
第二個：(dogD)這個dogD
至于下橫線這里，被認為連著一個單詞，并不是單詞邊界（.和（）是邊界），

\t是TAB鍵，\n是換行鍵，\r是回車,\f表示換頁，\v表示垂直的制表符

findall

注意：

如果給出的正則表達式包含子組的話，那么就會把子組的內容單獨返回回來；如果存在多個子組，那么就會把匹配內容組合成元組的形式來進行返回

實例1

p=r'dogD(fish)' html='dogDfishabcd' iplist=re.findall(p,html) iplist

實例2

p=r'dogD(fish)' html='dogDfishfishfish' iplist=re.findall(p,html) iplist

實例3

p=r'(dogD)(fish)' html='dogDfishfishfish' iplist=re.findall(p,html) iplist

實例4

p=r'(([0,1]?\d?\d|2[0-4]\d|25[0-5])\.){3}([0,1]?\d?\d|2[0-4]\d|25[0-5])' html='192.168.1.1 192.135.124.125 192.168.126.124' re.findall(p,html)

如何消除findall這種返回方法

p=r'(?:(?:[0,1]?\d?\d|2[0-4]\d|25[0-5])\.){3}(?:[0,1]?\d?\d|2[0-4]\d|25[0-5])'html='192.168.1.1 192.135.124.125 192.168.126.124' re.findall(p,html)

總結

以上是生活随笔為你收集整理的Python3 正则表达式特殊符号及用法（详细列表）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Python正则表达式之元字符详解（1）
下一篇： Python正则表达式之编译正则表达式（