匹配嵌套的构造(较复杂)
生活随笔
收集整理的這篇文章主要介紹了
匹配嵌套的构造(较复杂)
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
如果還不明白正則表達式中(?:)的使用,請看:http://www.knowsky.com/297.html
正則表達式的終極能力 - 遞歸
今天在QQ問liuzhi如何寫一個匹配遞歸式的正則表達式時,沒想到那家伙居然就回答“遞歸消除”,讓我去看編譯原理的書。(nnd,他肯定想到正則表達式的實現去了...)
找遍了正則表達式的語法都沒發現和遞歸有關或者可以間接用來實現遞歸的,不過今天在硬盤找到一個電子書(只有一章),居然有講解了這個。竊喜,記錄之。
例子是:
\((?>[^()]+|\((?)|\)(?<-DEPTH>))*(?(DEPTH)(?!))\)
這個是匹配有效的最多括號的語法,比如:
before (nope (yes (here) okay) after
匹配到的是:(yes (here) okay)
簡單翻譯了下這個文檔:
微軟公司已經包含了一個有趣的創新來匹配穩定的構造(歷史上,這是正則表達式所做不到的)。這并不容易掌握 — 盡管這節較短,但是注意,它非常的晦澀難懂。
從一個例子開始可能更簡單一些,所以我用這段代碼作為開始:
Regex r = new Regex(@"\((?>[^()]+|\((?<DEPTH>)|\)(?<-DEPTH>))*(?(DEPTH)(?!))\)");
這能匹配到首個完全配對的括號組,比如"before (nope (yes (here) okay) after"里面的"(yes (here) okay)"。注意第一個左括號沒有被匹配到,因為沒有和它匹配的右括號。
下面是它如何運作的概覽:
1、在每個"("被匹配到的時候,"(?<DEPTH>)"在這里加上一,告訴正則表達式系統當前括號嵌套的深度( 正則表達式開頭的"\("不包括在這里)。
2、在每個")"被匹配到的時候,"(?<-DEPTH>)"從深度值內減一。
3、"(?(DEPTH)(?!))"保證在匹配最后一個右括號之前深度為零。
它能工作的原因在于引擎的回逆堆棧保存了匹配成功的組的軌跡。"(?<DEPTH>)"不過是一個帶有名稱的分組構造,它將總是匹配成功(不匹配任何東西)。而由于它被緊接著放在"\("之后,它的成功匹配(仍然在堆棧上直到被移除)被用于左括號的計數。
譯注:還有一種寫法是"(?<DEPTH>\()",我個人比較喜歡這種形式,而不是"\((?<DEPTH>)"。后面的"\)(?<-DEPTH>)"也是一樣。
這樣,匹配成功了的名為"DEPTH"的分組的計數在回逆堆棧上被建立起來。而當找到右括號的時候我們還希望從深度值減一,這是由.NET特別的語法構造 "(?<-DEPTH>)"實現的,它將從堆棧上移除最近匹配的"DEPTH"分組。如果堆棧上已經沒有記錄,"(?<- DEPTH>)"分組匹配失敗,從而防止了正則表達式系統匹配多余的右括號。
最后,"(?(DEPTH)(?!))"是一個用于"(?!)"的斷言,如果"DEPTH"分組到目前為止還是成功的話。如果當我們匹配到這里時還是成功 的,這里有個未配對的左括號還沒有被"(?<-DEPTH>)"移除。在這種情況,我們希望停止匹配(我們不希望匹配一個未配對的括號),所 以我們使用"(?!)",它是一個“零寬度負預測先行斷言”,僅當子表達式不在此位置的右側匹配時才繼續匹配。
這就是在.NET的正則表達式實現中匹配嵌套結構的方法。
總結
以上是生活随笔為你收集整理的匹配嵌套的构造(较复杂)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: FreeBASIC
- 下一篇: Oracle tips