Day16 正则表达式
Day16 正則表達式
檢測類符號
\b - 檢測是否是單詞邊界
-
單詞邊界: 凡是可以將兩個單詞區分開的符號都是單詞邊界
-
比如: 空白字符、標點符號對應的字符、字符串的開頭和結尾
-
注意: 檢測類符號是在匹配成功的情況下看檢測類符號的位置是否符合要求
- re_str = r'abc \b123'print( fullmatch(re_str, 'abc 123')) #<re.Match object; span=(0, 7), match='abc 123'>re_str = r'\b\d\d\b' result = findall(re_str, 'sij12結束 98 按照形成12, 糾結, 21, 計算12i]98') print(result) #['98', '21', '98']
\B - 檢測是否不是單詞邊界
- re_str = r'\B\d\d\B' result = findall(re_str, 'sij12結束 98 按照形成12, 糾結, 21, 計算45i 98') print(result) # ['12', '45']
^ - 檢測是否是字符串開頭
- re_str = r'^\d\d' result = findall(re_str, '561sij12結束 98 45按照形成12, 糾結, 21, 12計算12i 98') print(result) # ['56']
$ - 檢測是否是字符串結尾
- re_str = r'\d\d$' result = findall(re_str, '56sij12結束 98 456按照形成12, 糾結, 21, 計算12i 98') print(result)
匹配次數
‘*’ - 任意次數
-
a* - a出現任意次
-
\d* - \d出現任意次數
-
[abc]* - abc任意一個字符出現任意次數
- re_str = r'a\d*b' print(fullmatch(re_str, 'ab')) print(fullmatch(re_str, 'a1b')) print(fullmatch(re_str, 'a13b')) print(fullmatch(re_str, 'a1345b'))
‘+’ - 出現至少一次
- re_str = r'a\d+b' print(fullmatch(re_str, 'ab')) # None print(fullmatch(re_str, 'a1b')) print(fullmatch(re_str, 'a13b')) print(fullmatch(re_str, 'a1345b'))
? - 出現至多一次
- re_str = r'a\d?b' print(fullmatch(re_str, 'ab')) print(fullmatch(re_str, 'a1b')) print(fullmatch(re_str, 'a13b')) # None print(fullmatch(re_str, 'a1345b')) # None
{}
-
{N} - 匹配N次
-
{M,N} - 匹配M到N次,M和N都可以取到
-
{M, } - 匹配至少M次
-
{,N} - 匹配至多N次
- re_str = r'1a{2,5}2' print(fullmatch(re_str, '1a2')) # None print(fullmatch(re_str, '1aa2')) print(fullmatch(re_str, '1aaa2')) print(fullmatch(re_str, '1aaaaaa2')) # None
貪婪和非貪婪
-
在匹配次數不確定的時候才有貪婪和非貪婪兩種模式.
-
貪婪: 在能匹配成功的前提下取匹配次數最多的次數. (默認)
-
非貪婪: 在能夠匹配成功的前提下取匹配次數最少的次數(在匹配次數后加?)
- re_str = r'a.+b' print(fullmatch(re_str, 'a掃is建檔立卡那種類型等級哦ib')) print(match(re_str, 'asjzixb123basdb拉三等獎')) # 5次 9次 13次re_str = r'a.+?b' print(fullmatch(re_str, 'a掃is建檔立卡那種類型等級哦ib')) print(match(re_str, 'asjdxb123basdb拉三等獎')) # 4次 8次 12次
分組或分支
分組 - ()
-
用法1: 將正則表達式中的一部分作為一個整體, 進行整體相關操作, 比如控制次數
-
用法2: 重復-使用\M來重復前面第M個分組中的內容
- re_str = r'([a-z]{3}\d{2}){3}' result = fullmatch(re_str, 'amn12abm23zsg78') print(result)# '23a23a56a23' re_str = '(\d{2}a){3}\d{2}' print(fullmatch(re_str, '23a23a56a23'))# 34abc 78abc78 re_str = r'(\d\d)abc\1' print(fullmatch(re_str, '45abc45')) print(fullmatch(re_str, '45abc55')) # None print(fullmatch(re_str, '45bc45')) # Nonere_str = r'(\d{2})=([u4e00-\u9fa5])=\2=\1' print(fullmatch(re_str, '23=啥=啥=23'))re_str = r'(\d{2})=\1=([u4e00-\u9fa5])=\2=\1' print(fullmatch(re_str, '23=23=啥=啥=23'))
分支 - |
-
正則表達式1|正則表達式2 - 先讓正則1和字符進行匹配, 如果成功就成功, 如果失敗就和正則2匹配, 都失敗才失敗
- # '23abc'、'MKHabc' re_str = r'\d{2}abc|[A-Z]{3}abc' print(fullmatch(re_str, 'IOLabc'))re_str = r'\d{2}|[A-Z]{3}abc' print(fullmatch(re_str, '23')) print(fullmatch(re_str, '23abc')) # None
轉義符號 \
-
讓特殊功能的符號的功能消失, 表示一個普通符號
- # '23.56' '90.01' re_str = r'[1-9]\d.\d{2}' print(fullmatch(re_str, '19637'))re_str = r'[1-9]\d\.\d{2}' print(fullmatch(re_str, '19.37'))# '2+9' re_str = r'\d+\d' print(fullmatch(re_str, '91324237')) print(fullmatch(re_str, '9+7')) # Nonere_str = r'\d\+\d' print(fullmatch(re_str, '91324237')) # None print(fullmatch(re_str, '9+7'))
-
注意: 獨立具備特殊功能的符號在[]中功能也會自動消失, 例如: + * ? . ( [ 等
-
本身在[]中具有特殊意義的就要特別注意: ^
re模塊
compile(正則表達式) - 創建一個正則表達式對象
- re_obj = re.compile(r'\d{3}')re_obj.fullmatch('123')
匹配類方法
fullmatch
- fullmatch(正則表達式, 字符串)
- 正則表達式對象.fullmatch(字符串)
- 判斷整個字符串是否符合正則表達式規則, 不符合返回None,符合返回匹配對象
match
-
match(正則表達式, 字符串)
-
正則表達式對象.match(字符串)
-
判斷字符串開頭是否符合正則表達式規則, 不符合返回None, 符合返回匹配對象
- result = match(r'\d{3}', '123阿拉斯加寬帶哦-100231sa') result = match(r'(\d{3})-([a-z]{2,5})', '112-mog阿拉斯加寬帶哦-100231sa') print(result) #<re.Match object; span=(0, 7), match='112-mog'>
匹配對象
-
匹配對象.group() - 獲取整個正則表達式匹配結果
-
匹配對象.group(N) - 獲取正則表達式中第N個分組匹配到的結果
- print(result.group()) # '112-mog' print(result.group(1)) # '112' print(result.group(2)) # 'mog'
獲取匹配結果在原字符串中的位置
-
匹配對象.span()
-
匹配對象.span(N)
- print(result.span()) # (0, 7) print(result.span(1)) # (0, 3) print(result.span(2)) # (4, 7)
獲取原字符串
-
匹配對象.string
- print(result.string) #112-mog阿拉斯加寬帶哦-100231sa
查找類方法
search
-
search(正則表達式, 字符串)
-
正則表達式對象.search(字符串)
-
獲取字符串中第一個滿足正則表達式的子串, 如果沒有返回None, 否則返回匹配對象
- result = search(r'\d{3}', 'sjxa12341瞬間xz856sjiaskjdlji--奧術大師多123') print(result) #<re.Match object; span=(4, 7), match='123'>
findall
-
findall(正則表達式, 字符串)
-
正則表達式.findall(字符串)
-
獲取字符串中所有滿足正則表達式的子串, 以列表的形式返回
- str1 = 'shais21233sad32=-213ml25343計算是23, 90毛33' result = findall(r'\d+', str1) print(result) #['21233', '32', '213', '25343', '23', '90', '33']result = findall(r'[\u4e00-\u9fa5]\d+', str1) print(result) # ['是23', '毛33']# 如果正則表達式中有分組, findall只提取匹配結果中分組匹配到的內容 result = findall(r'[\u4e00-\u9fa5](\d+)', str1) print(result) # ['23', '33']result = findall(r'\d+-[a-z]+', 'asd8982-mn颯颯的話2-sasidj==-2323-asd=愛上降低') print(result) # ['8982-mn', '2-sasidj', '2323-asd']result = findall(r'\d+-([a-z]+)', 'asd8982-mn颯颯的話2-sasidj==-2323-asd=愛上降低') print(result) # ['mn', 'sasidj', 'asd']result = findall(r'(\d+)-([a-z]+)', 'asd8982-mn颯颯的話2-sasidj==-2323-asd=愛上降低') print(result) # [('8982', 'mn'), ('2', 'sasidj'), ('2323', 'asd')]
finditer
-
finditer(正則表達式, 字符串)
-
正則表達式對象.finditer(字符串)
-
獲取字符串中所有滿足正則表達式的子串, 返回值是迭代器,迭代器中元素是匹配對象
- str1 = 'shais21233sad32=-213ml25343計算是23, 90毛33' result = finditer(r'\d+', str1) print(list(result))print('-----------------') result = finditer(r'(\d+)-([a-z]+)', 'asd8982-mn颯颯的話2-sasidj==-2323-asd=愛上降低') print('所有匹配結果:',[x.group() for x in result])result = finditer(r'(\d+)-([a-z]+)', 'asd8982-mn颯颯的話2-sasidj==-2323-asd=愛上降低') print('匹配的所有數字結果:', [x.group(1) for x in result])result = finditer(r'(\d+)-([a-z]+)', 'asd8982-mn颯颯的話2-sasidj==-2323-asd=愛上降低') print('匹配的所有字母結果:', [x.group(2) for x in result])
切割
-
split(正則表達式, 字符串)
-
正則表達式對象.split(字符串)
-
將字符串中所有滿足正則表達式的子串作為切割點對字符串進行切割
- str1 = '撒大蘇打123aasda阿瑟東23=qweas123ji1阿斯頓3213' result = split(r'\d+', str1) print(result) # ['撒大蘇打', 'aasda阿瑟東', '=qweas', 'ji', '阿斯頓', '']str2 = '颯颯的, 阿斯頓. 啊實打實的, 斯洛克.按時大撒達娃大撒' result = split(r'[,.]', str2) print(result) # ['颯颯的', '', '阿斯頓', '', '啊實打實的', '', '斯洛克', '按時大撒達娃大撒']result = split(r'[,.]', str2, 3) print(result) # ['颯颯的', '', '阿斯頓', ' 啊實打實的, 斯洛克.按時大撒達娃大撒']
替換
-
sub(正則表達式, 字符串1, 字符串2)
-
sub(字符串1, 字符串2)
-
將字符串2中所有滿足正則表達式的子串都替換正字符串1
- result = sub(r'\d+', '+', 'sdo12ajasdh123asi23dj12asd9,98-=-1') print(result) #sdo+ajasdh+asi+dj+asd+,+-=-+result = sub(r'\d+', '+', 'sdo12ajasdh123asi23dj12asd9,98-=-1', 3) print(result) #sdo+ajasdh+asi+dj12asd9,98-=-1
匹配參數
- 匹配參數: 1. 單行匹配 2. 忽略大小寫
單行匹配和多行匹配
-
默認是多行匹配
-
多行匹配時, '.‘不能和\n(換行)進行匹配; 單行匹配時’.'可以和\n進行匹配
- # 多行匹配 print(fullmatch(r'a.b', 'a\nb')) # None# 單行匹配 print(fullmatch(r'a.b', 'a\nb', flags=S)) # <re.Match object; span=(0, 3), match='a\nb'> print(fullmatch(r'(?s)a.b', 'a\nb')) # <re.Match object; span=(0, 3), match='a\nb'>
忽略大小寫
-
默認不忽略大小寫
- print(fullmatch(r'[a-z]{3}123', 'hSm123')) # None# 忽略大小寫 print(fullmatch(r'[a-z]{3}123', 'hSM123', flags=I)) print(fullmatch(r'(?i)[a-z]{3}123', 'hSM123'))# 單行匹配和忽略大小寫同時進行 print(fullmatch(r'abc.123', 'ABC\n123', flags=I|S)) #<re.Match object; span=(0, 7), match='ABC\n123'> print(fullmatch(r'(?si)abc.123', 'ABC\n123')) #<re.Match object; span=(0, 7), match='ABC\n123'>
作業
一、不定項選擇題
A.r"\(?\d{3}\)?-?\d{8}"
B. r"[0-9()-]+"
C.r"[0-9(-)]*\d*"
D.r"[(]?\d*[)-]*\d*"
能夠完全匹配字符串“back”和“back-end”的正則表達式包括( BCD)
A. r“\w{4}-\w{3}|\w{4}”
B. r“\w{4}|\w{4}-\w{3}”
C.r “\S±\S+|\S+”
D. r“\w*\b-\b\w*|\w*”
能夠完全匹配字符串“go go”和“kitty kitty”,但不能完全匹配“go kitty”的正則表達式包括( AD)
A.r “\b(\w+)\b\s+\1\b”
B. r“\w{2,5}\s*\1”
C. r“(\S+) \s+\1”
D. r“(\S{2,5})\s{1,}\1”
能夠在字符串中匹配“aab”,而不能匹配“aaab”和“aaaab”的正則表達式包括(BD )
A. r“a*?b”
B. r“a{,2}b”
C. r“aa??b”
D. r“aaa??b”
二、編程題
1.用戶名匹配
? 要求: 1.用戶名只能包含數字 字母 下劃線
? 2.不能以數字開頭
? 3.?度在 6 到 16 位范圍內
[^0-9]\w{6,16}? 要求: 1.不能包含!@#¥%^&*這些特殊符號
? 2.必須以字母開頭
? 3.?度在 6 到 12 位范圍內
[a-z]+[^!@#¥%^&*]{5,11}提示: IP地址的范圍是 0.0.0.0 - 255.255.255.255
驗證輸入內容只能是漢字
str1 = input('請輸入:') result = fullmatch(r'[\u4e00-\u9fa5]+', str1) if result == Noneprint('驗證失敗,輸入有誤,請輸入漢字') else:print('驗證成功')匹配整數或者小數(包括正數和負數)
r'((\-|\+)?\d+(\.\d+)?)'驗證輸入用戶名和QQ號是否有效并給出對應的提示信息
要求:
用戶名必須由字母、數字或下劃線構成且長度在6~20個字符之間
QQ號是5~12的數字且首位不能為0
拆分長字符串:將一首詩的中的每一句話分別取出來
? poem = ‘窗前明月光,疑是地上霜。舉頭望明月,低頭思故鄉。’
總結
以上是生活随笔為你收集整理的Day16 正则表达式的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 基于Cisco CDP协议的家用路由器以
- 下一篇: 颜色对照表