ABAP 正则表达式(Regular Expressions)
正則表達式(Regular Expressions)
正則表達式在其他編程語言中的應用非常廣泛,網上資料也非常多,而網上在ABAP語言中應用的資料卻很少,盡管各語言中正則表達式語法知識都很類似,但仍然有一些區別,本文主要是簡單介紹一下其基本語法。總結一下,方便大家查閱。
歡迎轉載,請注明出處,文中不足之處還望指正。(Email:hubin0809@126.com)
一、簡要認識
正則表達式就是用一個“字符串”來描述一個特征,然后去驗證另一個“字符串”是否符合這個特征。比如表達式“ab+” 描述的特征是“一個 'a' 和任意個 'b' ”,那么 'ab', 'abb', 'abbbbbbbbbb' 都符合這個特征。
正則表達式可以用來:(1)驗證字符串是否符合指定特征,比如驗證是否是合法的郵件地址。(2)用來查找字符串,從一個長的文本中查找符合指定特征的字符串,比查找固定字符串更加靈活方便。(3)用來替換,比普通的替換更強大。
舉例
| DATA:?matcher?TYPE?REF?TO?cl_abap_matcher, |
| 輸出結果:X |
解釋:
1>???? '\w+@\w+(\.\w+)+'中 \w 是表示任意一個字母或數字或下劃線,+ 表示前面字符個數為一個或多個,@即為’@’字符
2>???? matcher參照類cl_abap_matcher,match有匹配的意思,調用靜態方法create創建了匹配的對(暫時這么理解,好吧,我承認我不知道怎么形容),然后調用match方法,返回值中’X’表示匹配,SPACE表示不匹配。
具體含義后面會講到,本程序主要是驗證郵件地址是否合法。
?
二、語法規則
?
pattern模板,text要匹配的字符,match匹配結果,’X’表示匹配,SPACE表示不匹配。
?
1、?普通字符
?
字母、數字、漢字、下劃線、以及后面沒有特殊定義的標點符號,都是"普通字符"。表達式中的普通字符,在匹配一個字符串的時候,匹配與之相同的一個字符。
| Pattern | Text | Match |
| A | A | X |
| A | a | - |
| A | AB | - |
| AB | AB | X |
?
2、?轉義字符
?
一些不便書寫的字符,采用在前面加 "\" 的方法。例如’.’
| 表達式 | 可匹配 |
| \\ | 代表 "\" 本身 |
| \. | 匹配小數點(.)本身 |
| \Q...\E | 中間的字符作為普通字符 |
?
| Pattern | Text | Match |
| .\. | f. | X |
| .\. | f\f | - |
| \w\d | \w\d | - |
| \\w\\d | \w\d | X |
| \Q\w\d\E | \w\d | X |
?
3、?能夠與 '多種字符'?匹配的表達式
?
正則表達式中的一些表示方法,可以匹配 '多種字符' 其中的任意一個字符。比如,表達式 "\d" 可以匹配任意一個數字。雖然可以匹配其中任意字符,但是只能是一個,不是多個。這就好比玩撲克牌時候,大小王可以代替任意一張牌,但是只能代替一張牌。(沒玩過?好吧,去玩qq夠級吧,ok,信息泄露了,承認我是山東人)
| 表達式 | 可匹配 |
| \d | 任意一個數字,0~9 中的任意一個 |
| \w | 任意一個字母或數字或下劃線,也就是 A~Z,a~z,0~9,_ 中任意一個 |
| \s | 包括空格、制表符、換頁符等空白字符的其中任意一個 |
| . | 小數點可以匹配除了換行符(\n)以外的任意一個字符 |
?
| Pattern | Text | Match |
| \d | 9 | X |
| \d | 25 | - |
| \d\d | 25 | X |
| \w | A | X |
| \s | \n | X |
| ... | 4zF | X |
?
4、?自定義能夠與 '多種字符'?匹配的表達式
?
使用方括號 [ ] 包含一系列字符,能夠匹配其中任意一個字符。用 [^ ] 包含一系列字符,則能夠匹配其中字符之外的任意一個字符。同樣的道理,雖然可以匹配其中任意一個,但是只能是一個,不是多個。
| 表達式 | 可匹配 |
| [ab5@] | 匹配 "a" 或 "b" 或 "5" 或 "@" |
| [^abc] | 匹配 "a","b","c" 之外的任意一個字符 |
| [f-k] | 匹配 "f"~"k" 之間的任意一個字母 |
| [^A-F0-3] | 匹配 "A"~"F","0"~"3" 之外的任意一個字符 |
?
| Pattern | Text | Match |
| [abc] | a | X |
| [abc] | abc | - |
| [^abc]b | cb | - |
| [a-g]b | cb | X |
5、?支持的 POSIX?字符集合
?
| POSIX?字符集合 | 可匹配 |
| [:alnum:] | 任何一個字母或數字(A - Z, a - z, 0 - 9) |
| [:alpha:] | 任何一個字母(A - Z, a - z) |
| [:cntrl:] | 任何一個控制字符(\x00 – \x1F, \x7F) |
| [:digit:] | 任何一個數字(0 – 9) |
| [:space:] | 任何一個空白字符(\x09 – \x0D, \x20) |
| [:graph:] | 任何一個可顯示的 ASCII 字符,不包含空格 |
| [:lower:] | 任何一個小寫字母(a – z) |
| [:upper:] | 任何一個大寫字母(A – Z) |
| [:punct:] | 可顯示字符 [:print:] 中除去字母數字 [:alnum:] |
| [:blank:] | 空格或者制表符(\x20, \x09) |
????個人感覺意義不大,可能對一些控制字符有用吧,了解。
???
| Pattern | Text | Match |
| [[:alnum:]] | a | X |
| [:lower:][:digit:] | a9 | X |
| [[:lower:][:digit:]] | a9 | - |
| [[:lower:][:digit:]] | b | X |
?
6、?修飾匹配次數的特殊符號
?
前面講到的表達式,無論是只能匹配一種字符的表達式,還是可以匹配多種字符其中任意一個的表達式,都只能匹配一次。如果使用表達式再加上修飾匹配次數的特殊符號,那么不用重復書寫表達式就可以重復匹配,否則會累死的。
| 表達式 | 作用 |
| {n} | 表達式重復n次,比如:"\w{2}" 相當于 "\w\w";"a{5}" 相當于 "aaaaa" |
| {m,n} | 表達式至少重復m次,最多重復n次,比如:"ba{1,3}"可以匹配 "ba"或"baa"或"baaa" |
| {m,} | 表達式至少重復m次,比如:"\w\d{2,}"可以匹配 "a12","_456","M12344"... |
| ? | 匹配表達式0次或者1次,相當于 {0,1},比如:"a[cd]?"可以匹配 "a","ac","ad" |
| + | 表達式至少出現1次,相當于 {1,},比如:"a+b"可以匹配 "ab","aab","aaab"... |
| * | 表達式不出現或出現任意次,相當于 {0,},比如:"*b"可以匹配 "b","cccb"... |
?
| Pattern | Text | Match |
| [abc]{3} | bca | X |
| .{3,5} | abcd | X |
| \d{5,} | 12345 | X |
| a*b | b | X |
| a+b | b | - |
?
7、?其他一些代表抽象意義的特殊符號
?
| 表達式 | 作用 |
| ^ | 與字符串開始的地方匹配,不匹配任何字符 |
| $ | 與字符串結束的地方匹配,不匹配任何字符 |
| \b | 匹配一個單詞邊界,也就是單詞和空格之間的位置,不匹配任何字符 |
| | | 左右兩邊表達式之間 "或" 關系,匹配左邊或者右邊 |
| ( ) | (1). 在被修飾匹配次數的時候,括號中的表達式可以作為整體被修飾 |
| (?:? ) | 匹配pattern但不獲取匹配結果,也就是說這是一個非獲取匹配,不進行存儲供以后使用。 |
?
進一步的文字說明仍然比較抽象,因此,舉例幫助大家理解。
??? 舉例1:表達式 "^aaa" 在匹配 "xxx aaa xxx" 時,匹配結果是:失敗。因為 "^" 要求與字符串開始的地方匹配,因此,只有當 "aaa" 位于字符串的開頭的時候,"^aaa" 才能匹配,比如:"aaa xxx xxx"。
??? 舉例2:表達式 "aaa$" 在匹配 "xxx aaa xxx" 時,匹配結果是:失敗。因為 "$" 要求與字符串結束的地方匹配,因此,只有當 "aaa" 位于字符串的結尾的時候,"aaa$" 才能匹配,比如:"xxx xxx aaa"。
??? 舉例3:表達式 ".\b." 在匹配 "@@@abc" 時,能夠找到匹配的內容;匹配到的內容是:"@a";匹配到的位置是:開始于2,結束于4。
??? 進一步說明:"\b" 與 "^" 和 "$" 類似,本身不匹配任何字符,但是它要求它在匹配結果中所處位置的左右兩邊,其中一邊是 "\w" 范圍,另一邊是 非"\w" 的范圍。
??? 舉例4:表達式 "\bend\b" 在匹配 "weekend,endfor,end" 時,能夠找到匹配的內容;匹配到的內容是:"end";匹配到的位置是:開始于15,結束于18。
?
| Pattern | Text | Match |
| (.{1,3})|(.{5,}) | bcade | X |
?
三、正則表達式中的一些高級規則(ABAP部分支持)
1、 匹配次數中的貪婪與非貪婪
貪婪模式:
?
在使用修飾匹配次數的特殊符號時,有幾種表示方法可以使同一個表達式能夠匹配不同的次數,比如:"{m,n}", "{m,}", "?", "*", "+",具體匹配的次數隨被匹配的字符串而定。這種重復匹配不定次數的表達式在匹配過程中,總是盡可能多的匹配。比如,針對文本 "dxxxdxxxd",舉例如下:
| 表達式 | 匹配結果 |
| (d)(\w+) | "\w+" 將匹配第一個 "d" 之后的所有字符 "xxxdxxxd" |
| (d)(\w+)(d) | "\w+" 將匹配第一個 "d" 和最后一個 "d" 之間的所有字符 "xxxdxxx"。雖然 "\w+" 也能夠匹配上最后一個 "d",但是為了使整個表達式匹配成功,"\w+" 可以 "讓出" 它本來能夠匹配的最后一個 "d" |
由此可見,"\w+" 在匹配的時候,總是盡可能多的匹配符合它規則的字符。雖然第二個舉例中,它沒有匹配最后一個 "d",但那也是為了讓整個表達式能夠匹配成功。同理,帶 "*" 和 "{m,n}" 的表達式都是盡可能地多匹配,帶 "?" 的表達式在可匹配可不匹配的時候,也是盡可能的 "要匹配"。這種匹配原則就叫作 "貪婪" 模式 。
非貪婪模式:(ABAP暫時不支持,但是最好理解吧)
??? 在修飾匹配次數的特殊符號后再加上一個 "?" 號,則可以使匹配次數不定的表達式盡可能少的匹配,使可匹配可不匹配的表達式,盡可能的 "不匹配"。這種匹配原則叫作 "非貪婪" 模式,也叫作 "勉強" 模式。如果少匹配就會導致整個表達式匹配失敗的時候,與貪婪模式類似,非貪婪模式會最小限度的再匹配一些,以使整個表達式匹配成功。舉例如下,針對文本 "dxxxdxxxd" 舉例:
| 表達式 | 匹配結果 |
| (d)(\w+?) | "\w+?" 將盡可能少的匹配第一個 "d" 之后的字符,結果是:"\w+?" 只匹配了一個 "x" |
| (d)(\w+?)(d) | 為了讓整個表達式匹配成功,"\w+?" 不得不匹配 "xxx" 才可以讓后邊的 "d" 匹配,從而使整個表達式匹配成功。因此,結果是:"\w+?" 匹配 "xxx" |
更多的情況,舉例如下:
??? 舉例1:表達式 "<td>(.*)</td>" 與字符串 "<td><p>aa</p></td> <td><p>bb</p></td>" 匹配時,匹配的結果是:成功;匹配到的內容是 "<td><p>aa</p></td> <td><p>bb</p></td>" 整個字符串, 表達式中的 "</td>" 將與字符串中最后一個 "</td>" 匹配。?
??? 舉例2:相比之下,表達式 "<td>(.*?)</td>" 匹配舉例1中同樣的字符串時,將只得到 "<td><p>aa</p></td>", 再次匹配下一個時,可以得到第二個 "<td><p>bb</p></td>"。
2、 反向引用 \1, \2
表達式在匹配時,表達式引擎會將小括號 "( )" 包含的表達式所匹配到的字符串記錄下來。在獲取匹配結果的時候,小括號包含的表達式所匹配到的字符串可以單獨獲取。這一點,在前面的舉例中,已經多次展示了。在實際應用場合中,當用某種邊界來查找,而所要獲取的內容又不包含邊界時,必須使用小括號來指定所要的范圍。比如前面的 "<td>(.*?)</td>"。
??? 其實,"小括號包含的表達式所匹配到的字符串" 不僅是在匹配結束后才可以使用,在匹配過程中也可以使用。表達式后邊的部分,可以引用前面 "括號內的子匹配已經匹配到的字符串"。引用方法是 "\" 加上一個數字。"\1" 引用第1對括號內匹配到的字符串,"\2" 引用第2對括號內匹配到的字符串……以此類推,如果一對括號內包含另一對括號,則外層的括號先排序號。換句話說,哪一對的左括號 "(" 在前,那這一對就先排序號。
舉例如下:
??? 舉例1:表達式 "('|")(.*?)\1" 在匹配 " 'Hello', "World" " 時,匹配結果是:成功;匹配到的內容是:" 'Hello' "。再次匹配下一個時,可以匹配到 " "World" "。
??? 舉例2:表達式 "(\w)\1{4,}" 在匹配 "aa bbbb abcdefg ccccc 111121111 999999999" 時,匹配結果是:成功;匹配到的內容是 "ccccc"。再次匹配下一個時,將得到 999999999。這個表達式要求 "\w" 范圍的字符至少重復5次,注意與 "\w{5,}" 之間的區別。
??? 舉例3:表達式 "<(\w+)\s*(\w+(=('|").*?\4)?\s*)*>.*?</\1>" 在匹配 "<td id='td1' style="bgcolor:white"></td>" 時,匹配結果是成功。如果 "<td>" 與 "</td>" 不配對,則會匹配失敗;如果改成其他配對,也可以匹配成功。
3、 預搜索
前面的章節中,我講到了幾個代表抽象意義的特殊符號:"^","$","\b"。它們都有一個共同點,那就是:它們本身不匹配任何字符,只是對 "字符串的兩頭" 或者 "字符之間的縫隙" 附加了一個條件。理解到這個概念以后,本節將繼續介紹另外一種對 "兩頭" 或者 "縫隙" 附加條件的,更加靈活的表示方法。
?
正向預搜索:"(?=xxxxx)","(?!xxxxx)"
??? 格式:"(?=xxxxx)",在被匹配的字符串中,它對所處的 "縫隙" 或者 "兩頭" 附加的條件是:所在縫隙的右側,必須能夠匹配上 xxxxx 這部分的表達式。因為它只是在此作為這個縫隙上附加的條件,所以它并不影響后邊的表達式去真正匹配這個縫隙之后的字符。這就類似 "\b",本身不匹配任何字符。"\b" 只是將所在縫隙之前、之后的字符取來進行了一下判斷,不會影響后邊的表達式來真正的匹配。
???
舉例1:表達式 "Windows (?=NT|XP)" 在匹配 "Windows 98, Windows NT, Windows 2000" 時,將只匹配 "Windows NT" 中的 "Windows ",其他的 "Windows " 字樣則不被匹配。
??? 舉例2:表達式 "(\w)((?=\1\1\1)(\1))+" 在匹配字符串 "aaa ffffff 999999999" 時,將可以匹配6個"f"的前4個,可以匹配9個"9"的前7個。這個表達式可以讀解成:重復4次以上的字母數字,則匹配其剩下最后2位之前的部分。當然,這個表達式可以不這樣寫,在此的目的是作為演示之用。
格式:"(?!xxxxx)",所在縫隙的右側,必須不能匹配 xxxxx 這部分表達式。
??? 舉例3:表達式 "((?!\bstop\b).)+" 在匹配 "fdjka ljfdl stop fjdsla fdj" 時,將從頭一直匹配到 "stop" 之前的位置,如果字符串中沒有 "stop",則匹配整個字符串。
??? 舉例4:表達式 "do(?!\w)" 在匹配字符串 "done, do, dog" 時,只能匹配 "do"。在本條舉例中,"do" 后邊使用 "(?!\w)" 和使用 "\b" 效果是一樣的。
| 表達式 | 方向 | 說明 |
| (?=xxx) | 正向預搜索(向右) | 正向預搜索,判斷當前位置右側是否能匹配指定表達式 |
| (?!xxx) | 正向預搜索否定,判斷當前位置右側是否不能夠匹配指定表達式 | |
| (?<=xxx) | 反向預搜索(向左)[ABAP不支持] | 反向預搜索,判斷當前位置左側是否能夠匹配指定表達式 |
| (?<!xxx) | 反向預搜索否定,判斷當前位置左側是否不能夠匹配指定表達式 |
?
4、 其他補充
1>? 在表達式 "\s","\d","\w","\b" 表示特殊意義的同時,其大寫字母表示相反的意義
| 表達式 | 可匹配 |
| \S | 匹配所有非空白字符("\s" 可匹配各個空白字符) |
| \D | 匹配所有的非數字字符 |
| \W | 匹配所有的字母、數字、下劃線以外的字符 |
| \B | 匹配非單詞邊界,即左右兩邊都是 "\w" 范圍或者左右兩邊都不是 "\w" 范圍時的字符縫隙 |
2>? 在表達式中有特殊意義,需要添加 "\" 才能匹配該字符本身的字符匯總
| 字符 | 說明 |
| ^ | 匹配輸入字符串的開始位置。要匹配 "^" 字符本身,請使用 "\^" |
| $ | 匹配輸入字符串的結尾位置。要匹配 "$" 字符本身,請使用 "\$" |
| ( ) | 標記一個子表達式的開始和結束位置。要匹配小括號,請使用 "\(" 和 "\)" |
| [ ] | 用來自定義能夠匹配 '多種字符' 的表達式。要匹配中括號,請使用 "\[" 和 "\]" |
| { } | 修飾匹配次數的符號。要匹配大括號,請使用 "\{" 和 "\}" |
| . | 匹配除了換行符(\n)以外的任意一個字符。要匹配小數點本身,請使用 "\." |
| ? | 修飾匹配次數為 0 次或 1 次。要匹配 "?" 字符本身,請使用 "\?" |
| + | 修飾匹配次數為至少 1 次。要匹配 "+" 字符本身,請使用 "\+" |
| * | 修飾匹配次數為 0 次或任意次。要匹配 "*" 字符本身,請使用 "\*" |
| | | 左右兩邊表達式之間 "或" 關系。匹配 "|" 本身,請使用 "\|" |
?
四、在ABAP中的應用
?
規則終于寫完了!其實和其他編程語言規則差不多啦!下面結合ABAP講講怎么使用吧,Let’s GO!
不過需要注意, SAP只能是ECC6或者更高版本才可以使用正則(ABAP supports POSIX regular expressions as of Release 7.00)
?
??? 在ABAP中定義了兩個類來實現相應功能,分別是
CL_ABAP_REGEX?????????????? regex就是regular expression的縮寫,里面的方法不是很多,可能用到的也就只有構造方法和REATE_MATCHER這個方法。
CL_ABAP_MATCHER???? matcher匹配的意思,也就是說所有的匹配規則都和它有關,里面具體方法,se24去查看
?
其實正則表達式的應用無外乎三種:驗證(是否符合規則)、查找(包含提取)、替換
?
1、????????驗證
實例1
| IF?CL_ABAP_MATCHER=>MATCHES(?PATTERN?=?'\D+' |
| 輸出結果:IS?NOT?NUMBER |
解釋:CL_ABAP_MATCHER有一個靜態方法,直接進行匹配。
?
2、????????查找
實例2
| DATA: |
| 輸出結果:http://www.cnblogs.com/VerySky/admin/EditPosts.aspx?opt=1 |
解釋:
B.在實例中有FIND_ALL(),FIND_NEXT()方法,可以用來查找。
?
這個方法是不是太麻煩了啊,不急有簡單的方法,其實就是字符串處理中用到的。
?
實例3
| DATA:?patt???????TYPE?string?VALUE?`n.?w`, |
| 輸出結果: 11????? 3 24????? 3 |
?
實例4
| DATA:?STR?TYPE?STRING?, |
| 輸出結果: 我啊 們 |
解釋:大家都知道英文字母是單字節的,中文是雙字節的,但是在ABAP里面用strlen等方法是區別不出單雙字節的,這個實例中講的不失為一個很好的辦法。
?
3、????????替換
?
實例4
| DATA: |
| 輸出結果: REPLACE?BEFORE: hubinshishuibuzhidao REPLACE?COUNT?IS:2 REPLACE?AFTER: hubinshishuibuzhidao |
大家肯定會說了,字符串前后沒有沒替換啊。注意修改的不是W_TEXT本身,他將修改后的值放到了MATCHER->TEXT即match類實例的屬性里面,我們只需令W_TEXT = MATCHER->TEXT即可。
????? 修改后
| DATA: W_TEXT?=?MATCHER->TEXT. |
| 輸出結果: REPLACE?BEFORE: hubinshishuibuzhidao REPLACE?COUNT?IS:2 REPLACE?AFTER: hubinFFFFFFbuzhidao |
?
同樣這里也有簡單方法,字符串處理中的方法也是支持正則的
實例5
| DATA?TEXT?TYPE?STRING?VALUE?'-dfufdud-'. |
| 輸出結果: -dfxfdxd- |
?
4、????????方法語句總結
?
類結
CL_ABAP_MATCHER類里的重要方法
字符串處理中,支持正則的語句?
五、補充
?
這里給出ABAP F1幫助中給出的一個特殊字符的列表,很有用的
?
Special Characters in Regular Expressions
The following tables summarize the special characters in regular expressions:
Escape character
| Special character | Meaning |
| \ | Escape character for special characters |
?
Special character for single character strings
| Special character | Meaning |
| . | Placeholder for any single character |
| \C | Placeholder for any single character |
| \d | Placeholder for any single digit |
| \D | Placeholder for any character other than a digit |
| \l | Placeholder for any lower-case letter |
| \L | Placeholder for any character other than a lower-case letter |
| \s | Placeholder for a blank character |
| \S | Placeholder for any character other than a blank character |
| \u | Placeholder for any upper-case letter |
| \U | Placeholder for any character other than an upper-case letter |
| \w | Placeholder for any alphanumeric character including?_ |
| \W | Placeholder for any non-alphanumeric character except for?_ |
| [ ] | Definition of a value set for single characters |
| [^ ] | Negation of a value set for single characters |
| [ - ] | Definition of a range in a value set for single characters |
| [ [:alnum:] ] | Description of all alphanumeric characters in a value set |
| [ [:alpha:] ] | Description of all letters in a value set |
| [ [:blank:] ] | Description for blank characters and horizontal tabulators in a value set |
| [ [:cntrl:] ] | Description of all control characters in a value set |
| [ [:digit:] ] | Description of all digits in a value set |
| [ [:graph:] ] | Description of all graphic special characters in a value set |
| [ [:lower:] ] | Description of all lower-case letters in a value set |
| [ [:print:] ] | Description of all displayable characters in a value set |
| [ [:punct:] ] | Description of all punctuation characters in a value set |
| [ [:space:] ] | Description of all blank characters, tabulators, and carriage feeds in a value set |
| [ [:unicode:] ] | Description of all Unicode characters in a value set with a code larger than 255 |
| [ [:upper:] ] | Description of all upper-case letters in a value set |
| [ [:word:] ] | Description of all alphanumeric characters in a value set, including?_ |
| [ [:xdigit:] ] | Description of all hexadecimal digits in a value set |
| \a \f \n \r \t \v | Diverse platform-specific control characters |
| [..] | Reserved for later enhancements |
| [==] | Reserved for later enhancements |
?
Special characters for character string patterns
| Special character | Meaning |
| {n} | Concatenation of?n?single characters |
| {n,m} | Concatenation of at least?n?and a maximum of?m?single characters |
| {n,m}? | Reserved for later enhancements |
| ? | One or no single characters |
| * | Concatenation of any number of single characters including 'no characters' |
| *? | Reserved for later enhancements |
| + | Concatenation of any number of single characters excluding 'no characters' |
| +? | Reserved for later enhancements |
| | | Linking of two alternative expressions |
| ( ) | Definition of subgroups with registration |
| ? | ? |
| (?: ) | Definition of subgroups without registration |
| \1,?\2,?\3?... | Placeholder for the register of subgroups |
| \Q?...?\E | Definition of a string of literal characters |
| (??...?) | Reserved for later enhancements |
?
Special characters for search strings
| Special character | Meaning |
| ^ | Anchor character for the start of a line |
| \A | Anchor character for the start of a character string |
| $ | Anchor character for the end of a line |
| \Z | Anchor character for the end of a character string |
| \< | Start of a word |
| \> | End of a word |
| \b | Start or end of a word |
| \B | Space between characters within a word |
| (?= ) | Preview condition |
| (?! ) | Negated preview condition |
?
Special characters for replacement texts
| Special character | Meaning |
| $0,?$& | Placeholder for the whole found location |
| $1,?$2,?$3... | Placeholder for the register of subgroups |
| $` | Placeholder for the text before the found location |
| $' | Placeholder for the text after the found location |
?
從上面的列表可以看出,ABAP中對“非貪婪模式”(ABAP啊,你不支持啊,你太貪婪了)和“反向預搜索”暫不支持,希望以后能夠趕緊擴展功能吧,畢竟很強大的說。
?
正則表達式是需要反復修改,最后才能找到最匹配的規則的,為此ABAP Program里也提供了一個,測試用得小程序,SE38里找DEMO_REGEX_TOY運行即可。
?
在ABAP培訓資料里面有一個很有意思的表達式,大家有興趣可以看一下它能匹配什么文字
| ^(?=\d)(?:(?:31(?!.(?:0?[2469]|11))|(?:30 |29)(?!.0?2)|29(?=.0?2.(?:(?:(?:1[6-9]|[2 -9]\d)?(?:0[48]|[2468][048]|[13579][26])| (?:(?:16|[2468][048]|[3579][26])00)))(?:\ x20|$))|(?:2[0-8]|1\d|0?[1-9]))([-./])(?: 1[012]|0?[1-9])\1(?:1[6-9]|[2-9]\d)?\d\d( ?:(?=\x20\d)\x20|$))?(((0?[1-9]|1[012])(: [0-5]\d){0,2}(\x20[AP]M))|([01]\d|2[0-3]) (:[0-5]\d){1,2})?$ |
?
?
以下附上網上的一些資料:
?
表達式全集
正則表達式有多種不同的風格。下表是在PCRE中元字符及其在正則表達式上下文中的行為的一個完整列表:
| 字符 | 描述 |
| \ | 將下一個字符標記為一個特殊字符、或一個原義字符、或一個向后引用、或一個八進制轉義符。例如,“n”匹配字符“n”。“\n”匹配一個換行符。序列“\\”匹配“\”而“\(”則匹配“(”。 |
| ^ | 匹配輸入字符串的開始位置。如果設置了RegExp對象的Multiline屬性,^也匹配“\n”或“\r”之后的位置。 |
| $ | 匹配輸入字符串的結束位置。如果設置了RegExp對象的Multiline屬性,$也匹配“\n”或“\r”之前的位置。 |
| * | 匹配前面的子表達式零次或多次。例如,zo*能匹配“z”以及“zoo”。*等價于{0,}。 |
| + | 匹配前面的子表達式一次或多次。例如,“zo+”能匹配“zo”以及“zoo”,但不能匹配“z”。+等價于{1,}。 |
| ? | 匹配前面的子表達式零次或一次。例如,“do(es)?”可以匹配“do”或“does”中的“do”。?等價于{0,1}。 |
| {n} | n是一個非負整數。匹配確定的n次。例如,“o{2}”不能匹配“Bob”中的“o”,但是能匹配“food”中的兩個o。 |
| {n,} | n是一個非負整數。至少匹配n次。例如,“o{2,}”不能匹配“Bob”中的“o”,但能匹配“foooood”中的所有o。“o{1,}”等價于“o+”?!皁{0,}”則等價于“o*”。 |
| {n,m} | m和n均為非負整數,其中n<=m。最少匹配n次且最多匹配m次。例如,“o{1,3}”將匹配“fooooood”中的前三個o。“o{0,1}”等價于“o?”。請注意在逗號和兩個數之間不能有空格。 |
| ? | 當該字符緊跟在任何一個其他限制符(*,+,?,{n},{n,},{n,m})后面時,匹配模式是非貪婪的。非貪婪模式盡可能少的匹配所搜索的字符串,而默認的貪婪模式則盡可能多的匹配所搜索的字符串。例如,對于字符串“oooo”,“o+?”將匹配單個“o”,而“o+”將匹配所有“o”。 |
| . | 匹配除“\n”之外的任何單個字符。要匹配包括“\n”在內的任何字符,請使用像“[.\n]”的模式。 |
| (pattern) | 匹配pattern并獲取這一匹配。所獲取的匹配可以從產生的Matches集合得到,在VBScript中使用SubMatches集合,在JScript中則使用$0…$9屬性。要匹配圓括號字符,請使用“\(”或“\)”。 |
| (?:pattern) | 匹配pattern但不獲取匹配結果,也就是說這是一個非獲取匹配,不進行存儲供以后使用。這在使用或字符“(|)”來組合一個模式的各個部分是很有用。例如“industr(?:y|ies)”就是一個比“industry|industries”更簡略的表達式。 |
| (?=pattern) | 正向預查,在任何匹配pattern的字符串開始處匹配查找字符串。這是一個非獲取匹配,也就是說,該匹配不需要獲取供以后使用。例如,“Windows(?=95|98|NT|2000)”能匹配“Windows2000”中的“Windows”,但不能匹配“Windows3.1”中的“Windows”。預查不消耗字符,也就是說,在一個匹配發生后,在最后一次匹配之后立即開始下一次匹配的搜索,而不是從包含預查的字符之后開始。 |
| (?!pattern) | 負向預查,在任何不匹配pattern的字符串開始處匹配查找字符串。這是一個非獲取匹配,也就是說,該匹配不需要獲取供以后使用。例如“Windows(?!95|98|NT|2000)”能匹配“Windows3.1”中的“Windows”,但不能匹配“Windows2000”中的“Windows”。預查不消耗字符,也就是說,在一個匹配發生后,在最后一次匹配之后立即開始下一次匹配的搜索,而不是從包含預查的字符之后開始 |
| x|y | 匹配x或y。例如,“z|food”能匹配“z”或“food”?!?z|f)ood”則匹配“zood”或“food”。 |
| [xyz] | 字符集合。匹配所包含的任意一個字符。例如,“[abc]”可以匹配“plain”中的“a”。 |
| [^xyz] | 負值字符集合。匹配未包含的任意字符。例如,“[^abc]”可以匹配“plain”中的“p”。 |
| [a-z] | 字符范圍。匹配指定范圍內的任意字符。例如,“[a-z]”可以匹配“a”到“z”范圍內的任意小寫字母字符。 |
| [^a-z] | 負值字符范圍。匹配任何不在指定范圍內的任意字符。例如,“[^a-z]”可以匹配任何不在“a”到“z”范圍內的任意字符。 |
| \b | 匹配一個單詞邊界,也就是指單詞和空格間的位置。例如,“er\b”可以匹配“never”中的“er”,但不能匹配“verb”中的“er”。 |
| \B | 匹配非單詞邊界?!癳r\B”能匹配“verb”中的“er”,但不能匹配“never”中的“er”。 |
| \cx | 匹配由x指明的控制字符。例如,\cM匹配一個Control-M或回車符。x的值必須為A-Z或a-z之一。否則,將c視為一個原義的“c”字符。 |
| \d | 匹配一個數字字符。等價于[0-9]。 |
| \D | 匹配一個非數字字符。等價于[^0-9]。 |
| \f | 匹配一個換頁符。等價于\x0c和\cL。 |
| \n | 匹配一個換行符。等價于\x0a和\cJ。 |
| \r | 匹配一個回車符。等價于\x0d和\cM。 |
| \s | 匹配任何空白字符,包括空格、制表符、換頁符等等。等價于[\f\n\r\t\v]。 |
| \S | 匹配任何非空白字符。等價于[^\f\n\r\t\v]。 |
| \t | 匹配一個制表符。等價于\x09和\cI。 |
| \v | 匹配一個垂直制表符。等價于\x0b和\cK。 |
| \w | 匹配包括下劃線的任何單詞字符。等價于“[A-Za-z0-9_]”。 |
| \W | 匹配任何非單詞字符。等價于“[^A-Za-z0-9_]”。 |
| \xn | 匹配n,其中n為十六進制轉義值。十六進制轉義值必須為確定的兩個數字長。例如,“\x41”匹配“A”。“\x041”則等價于“\x04&1”。正則表達式中可以使用ASCII編碼。. |
| \num | 匹配num,其中num是一個正整數。對所獲取的匹配的引用。例如,“(.)\1”匹配兩個連續的相同字符。 |
| \n | 標識一個八進制轉義值或一個向后引用。如果\n之前至少n個獲取的子表達式,則n為向后引用。否則,如果n為八進制數字(0-7),則n為一個八進制轉義值。 |
| \nm | 標識一個八進制轉義值或一個向后引用。如果\nm之前至少有nm個獲得子表達式,則nm為向后引用。如果\nm之前至少有n個獲取,則n為一個后跟文字m的向后引用。如果前面的條件都不滿足,若n和m均為八進制數字(0-7),則\nm將匹配八進制轉義值nm。 |
| \nml | 如果n為八進制數字(0-3),且m和l均為八進制數字(0-7),則匹配八進制轉義值nml。 |
| \un | 匹配n,其中n是一個用四個十六進制數字表示的Unicode字符。例如,\u00A9匹配版權符號(?)。 |
?
常用的正則表達式
正則表達式用于字符串處理、表單驗證等場合,實用高效?,F將一些常用的表達式收集于此,以備不時之需。
用戶名:/^[a-z0-9_-]{3,16}$/
密碼:/^[a-z0-9_-]{6,18}$/
十六進制值:/^#?([a-f0-9]{6}|[a-f0-9]{3})$/
電子郵箱:/^([a-z0-9_\.-]+)@([\da-z\.-]+)\.([a-z\.]{2,6})$/
URL:/^(https?:\/\/)?([\da-z\.-]+)\.([a-z\.]{2,6})([\/\w \.-]*)*\/?$/
IP 地址:/^(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)$/
HTML 標簽:/^<([a-z]+)([^<]+)*(?:>(.*)<\/\1>|\s+\/>)$/
Unicode編碼中的漢字范圍:/^[u4e00-u9fa5],{0,}$/
匹配中文字符的正則表達式: [\u4e00-\u9fa5]
評注:匹配中文還真是個頭疼的事,有了這個表達式就好辦了
匹配雙字節字符(包括漢字在內):[^\x00-\xff]
評注:可以用來計算字符串的長度(一個雙字節字符長度計2,ASCII字符計1)
匹配空白行的正則表達式:\n\s*\r
評注:可以用來刪除空白行
匹配HTML標記的正則表達式:<(\S*?)[^>]*>.*?</\1>|<.*? />
評注:網上流傳的版本太糟糕,上面這個也僅僅能匹配部分,對于復雜的嵌套標記依舊無能為力
匹配首尾空白字符的正則表達式:^\s*|\s*$
評注:可以用來刪除行首行尾的空白字符(包括空格、制表符、換頁符等等),非常有用的表達式
匹配Email地址的正則表達式:\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*
評注:表單驗證時很實用
匹配網址URL的正則表達式:[a-zA-z]+://[^\s]*
評注:網上流傳的版本功能很有限,上面這個基本可以滿足需求
匹配帳號是否合法(字母開頭,允許5-16字節,允許字母數字下劃線):^[a-zA-Z][a-zA-Z0-9_]{4,15}$
評注:表單驗證時很實用
匹配國內電話號碼:\d{3}-\d{8}|\d{4}-\d{7}
評注:匹配形式如 0511-4405222 或 021-87888822
匹配騰訊QQ號:[1-9][0-9]{4,}
評注:騰訊QQ號從10000開始
匹配中國大陸郵政編碼:[1-9]\d{5}(?!\d)
評注:中國大陸郵政編碼為6位數字
匹配身份證:\d{15}|\d{18}
評注:中國大陸的身份證為15位或18位
匹配ip地址:\d+\.\d+\.\d+\.\d+
評注:提取ip地址時有用
匹配特定數字:
^[1-9]\d*$ //匹配正整數
^-[1-9]\d*$ //匹配負整數
^-?[1-9]\d*$ //匹配整數
^[1-9]\d*|0$ //匹配非負整數(正整數 + 0)
^-[1-9]\d*|0$ //匹配非正整數(負整數 + 0)
^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$ //匹配正浮點數
^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$ //匹配負浮點數
^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$ //匹配浮點數
^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0$ //匹配非負浮點數(正浮點數 + 0)
^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0$ //匹配非正浮點數(負浮點數 + 0)
評注:處理大量數據時有用,具體應用時注意修正
匹配特定字符串:
^[A-Za-z]+$ //匹配由26個英文字母組成的字符串
^[A-Z]+$ //匹配由26個英文字母的大寫組成的字符串
^[a-z]+$ //匹配由26個英文字母的小寫組成的字符串
^[A-Za-z0-9]+$ //匹配由數字和26個英文字母組成的字符串
^\w+$ //匹配由數字、26個英文字母或者下劃線組成的字符串
如何寫出高效率的正則表達式
如果純粹是為了挑戰自己的正則水平,用來實現一些特效(例如使用正則表達式計算質數、解線性方程),效率不是問題;如果所寫的正則表達式只是為了滿足一兩次、幾十次的運行,優化與否區別也不太大。但是,如果所寫的正則表達式會百萬次、千萬次地運行,效率就是很大的問題了。我這里總結了幾條提升正則表達式運行效率的經驗(工作中學到的,看書學來的,自己的體會),貼在這里。如果您有其它的經驗而這里沒有提及,歡迎賜教。
為行文方便,先定義兩個概念。
誤匹配:指正則表達式所匹配的內容范圍超出了所需要范圍,有些文本明明不符合要求,但是被所寫的正則式“擊中了”。例如,如果使用\d{11}來匹配11位的手機號,\d{11}不單能匹配正確的手機號,它還會匹配98765432100這樣的明顯不是手機號的字符串。我們把這樣的匹配稱之為誤匹配。
漏匹配:指正則表達式所匹配的內容所規定的范圍太狹窄,有些文本確實是所需要的,但是所寫的正則沒有將這種情況囊括在內。例如,使用\d{18}來匹配18位的身份證號碼,就會漏掉結尾是字母X的情況。
寫出一條正則表達式,既可能只出現誤匹配(條件寫得極寬松,其范圍大于目標文本),也可能只出現漏匹配(只描述了目標文本中多種情況種的一種),還可能既有誤匹配又有漏匹配。例如,使用\w+\.com來匹配.com結尾的域名,既會誤匹配abc_.com這樣的字串(合法的域名中不含下劃線,\w包含了下劃線這種情況),又會漏掉ab-c.com這樣的域名(合法域名中可以含中劃線,但是\w不匹配中劃線)。
精準的正則表達式意味著既無誤匹配且無漏匹配。當然,現實中存在這樣的情況:只能看到有限數量的文本,根據這些文本寫規則,但是這些規則將會用到海量的文本中。這種情況下,盡可能地(如果不是完全地)消除誤匹配以及漏匹配,并提升運行效率,就是我們的目標。本文所提出的經驗,主要是針對這種情況。
掌握語法細節。正則表達式在各種語言中,其語法大致相同,細節各有千秋。明確所使用語言的正則的語法的細節,是寫出正確、高效正則表達式的基礎。例如,perl中與\w等效的匹配范圍是[a-zA-Z0-9_];perl正則式不支持肯定逆序環視中使用可變的重復(variable repetition inside lookbehind,例如(?<=.*)abc),但是.Net語法是支持這一特性的;又如,JavaScript連逆序環視(Lookbehind,如(?<=ab)c)都不支持,而perl和python是支持的?!毒ㄕ齽t表達式》第3章《正則表達式的特性和流派概覽》明確地列出了各大派系正則的異同,這篇文章也簡要地列出了幾種常用語言、工具中正則的比較。對于具體使用者而言,至少應該詳細了解正在使用的那種工作語言里正則的語法細節。
先粗后精,先加后減。使用正則表達式語法對于目標文本進行描述和界定,可以像畫素描一樣,先大致勾勒出框架,再逐步在局步實現細節。仍舉剛才的手機號的例子,先界定\d{11},總不會錯;再細化為1[358]\d{9},就向前邁了一大步(至于第二位是不是3、5、8,這里無意深究,只舉這樣一個例子,說明逐步細化的過程)。這樣做的目的是先消除漏匹配(剛開始先盡可能多地匹配,做加法),然后再一點一點地消除誤匹配(做減法)。這樣有先有后,在考慮時才不易出錯,從而向“不誤不漏”這個目標邁進。
留有余地。所能看到的文本sample是有限的,而待匹配檢驗的文本是海量的,暫時不可見的。對于這樣的情況,在寫正則表達式時要跳出所能見到的文本的圈子,開拓思路,作出“戰略性前瞻”。例如,經常收到這樣的垃圾短信:“發*票”、“發#漂”。如果要寫規則屏蔽這樣煩人的垃圾短信,不但要能寫出可以匹配當前文本的正則表達式 發[*#](?:票|漂),還要能夠想到 發.(?:票|漂|飄)之類可能出現的“變種”。這在具體的領域或許會有針對性的規則,不多言。這樣做的目的是消除漏匹配,延長正則表達式的生命周期。
明確。具體說來,就是謹慎用點號這樣的元字符,盡可能不用星號和加號這樣的任意量詞。只要能確定范圍的,例如\w,就不要用點號;只要能夠預測重復次數的,就不要用任意量詞。例如,寫析取twitter消息的腳本,假設一條消息的xml正文部分結構是<span class=”msg”>…</span>且正文中無尖括號,那么<span class=”msg”>[^<]{1,480}</span>這種寫法的思路要好于<span class=”msg”>.*</span>,原因有二:一是使用[^<],它保證了文本的范圍不會超出下一個小于號所在的位置;二是明確長度范圍,{1,480},其依據是一條twitter消息大致能的字符長度范圍。當然,480這個長度是否正確還可推敲,但是這種思路是值得借鑒的。說得狠一點,“濫用點號、星號和加號是不環保、不負責任的做法”。
不要讓稻草壓死駱駝。每使用一個普通括號()而不是非捕獲型括號(?:…),就會保留一部分內存等著你再次訪問。這樣的正則表達式、無限次地運行次數,無異于一根根稻草的堆加,終于能將駱駝壓死。養成合理使用(?:…)括號的習慣。
寧簡勿繁。將一條復雜的正則表達式拆分為兩條或多條簡單的正則表達式,編程難度會降低,運行效率會提升。例如用來消除行首和行尾空白字符的正則表達式s/^\s+|\s+$//g;,其運行效率理論上要低于s/^\s+//g; s/\s+$//g; 。這個例子出自《精通正則表達式》第五章,書中對它的評論是“它幾乎總是最快的,而且顯然最容易理解”。既快又容易理解,何樂而不為?工作中我們還有其它的理由要將C==(A|B)這樣的正則表達式拆為A和B兩條表達式分別執行。例如,雖然A和B這兩種情況只要有一種能夠擊中所需要的文本模式就會成功匹配,但是如果只要有一條子表達式(例如A)會產生誤匹配,那么不論其它的子表達式(例如B)效率如何之高,范圍如何精準,C的總體精準度也會因A而受到影響。
巧妙定位。有時候,我們需要匹配的the,是作為單詞的the(兩邊有空格),而不是作為單詞一部分的t-h-e的有序排列(例如together中的the)。在適當的時候用上^,$,\b等等定位錨點,能有效提升找到成功匹配、淘汰不成功匹配的效率。
總結
以上是生活随笔為你收集整理的ABAP 正则表达式(Regular Expressions)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: [agc012e]Camel and O
- 下一篇: 雷达 -- 频谱历史介绍