【ES6(2015)】RegExp
文章目錄
- 1. y修飾符
- 2. u修飾符
1. y修飾符
ES6為正則表達式添加了y修飾符,叫做“粘連”(sticky)修飾符。
y修飾符的作用與g修飾符類似,也是全局匹配,后一次匹配都從上一次匹配成功的下一個位置開始。不同之處在于,g修飾符只要剩余位置中存在匹配就可,而y修飾符確保匹配必須從剩余的第一個位置開始,這也就是“粘連”的涵義。
const s = 'aaa_aa_a' const r1 = /a+/g const r2 = /a+/yr1.exec(s) // ["aaa"] r2.exec(s) // ["aaa"]r1.exec(s) // ["aa"] r2.exec(s) // null上面代碼有兩個正則表達式,一個使用g修飾符,另一個使用y修飾符。這兩個正則表達式各執行了兩次,第一次執行的時候,兩者行為相同,剩余字符串都是_aa_a。由于g修飾沒有位置要求,所以第二次執行會返回結果,而y修飾符要求匹配必須從頭部開始,所以返回null。
如果改一下正則表達式,保證每次都能頭部匹配,y修飾符就會返回結果了。
const s = 'aaa_aa_a' const r = /a+_/yr.exec(s) // ["aaa_"] r.exec(s) // ["aa_"]上面代碼每次匹配,都是從剩余字符串的頭部開始。
使用lastIndex屬性,可以更好地說明y修飾符。
const regexp = /a/g// 指定從2號位置(y)開始匹配 regexp.lastIndex = 2// 匹配成功 const match = regexp.exec('xaya')// 在3號位置匹配成功 console.log(match.index) // 3// 下一次匹配從4號位開始 console.log(regexp.lastIndex) // 4// 4號位開始匹配失敗 regexp.exec('xaxa') // null上面代碼中,lastIndex屬性指定每次搜索的開始位置,g修飾符從這個位置開始向后搜索,直到發現匹配為止。
y修飾符同樣遵守lastIndex屬性,但是要求必須在lastIndex指定的位置發現匹配。
const regexp = /a/y// 指定從2號位置開始匹配 regexp.lastIndex = 2// 不是粘連,匹配失敗 regexp.exec('xaya') // null// 指定從3號位置開始匹配 regexp.lastIndex = 3// 3號位置是粘連,匹配成功 const match = regexp.exec('xaxa') console.log(match.index) // 3 console.log(regexp.lastIndex) // 4進一步說,y修飾符號隱含了頭部匹配的標志^。
const reg = /b/y reg.exec('aba') // null console.log(reg.lastIndex)sticky 模式在正則匹配過程中只會影響兩件事:
匹配必須從 re.lastIndex 開始(相當于正則表達中的 ^)
如果匹配到會修改 re.lastIndex(相當于 g 模式)
2. u修飾符
ES6為正則表達式添加了u修飾符,含義為“Unicode模式”,用來正確處理大于 \uFFFF 的Unicode字符。也就是說,會正確處理四個字節的UTF-16編碼。
/^\uD83D/u.test('\uD83D\uDC2A') // false/^\uD83D/.test('\uD83D\uDC2A') // true上面代碼中, \uD83D\uDC2A 是一個四個字節的UTF-16編碼,代表一個字符 “🐪”。但是,ES5不支持四個字節的UTF-16編碼,會將其識別為兩個字符,導致第二行代碼結果為true。加了u修飾符以后,ES6就會識別其為一個字符,所以第一行代碼結果為false。
一旦加上u修飾符號,就會修改下面這些正則表達式的行為。
(1) 點字符
點(.)字符在正則表達式中,含義是除了換行符以外的任意單個字符。對于碼點大于 0xFFFF 的 Unicode 字符,點字符不能識別,必須加上u修飾符。
上面代碼表示,如果不添加u修飾符,正則表達式就會認為字符串為兩個字符,從而匹配失敗。
(2) Unicode字符表示法
ES6新增了使用大括號表示Unicode字符,這種表示法在正則表達式中必須加上u修飾符,才能識別。
上面代碼表示,如果不加u修飾符,正則表達式無法識別\u{61}這種表示法,只會認為這匹配61個連續的u。
(3) 量詞
使用u修飾符后,所有量詞都會正確識別碼點大于0xFFFF的Unicode字符。
另外,只有在使用u修飾符的情況下,Unicode表達式當中的大括號才會被正確解讀,否則會被解讀為量詞。
/^\u{3}$/.test('uuu') // true上面代碼中,由于正則表達式沒有u修飾符,所以大括號被解讀為量詞。加上u修飾符,就會被解讀為Unicode表達式。
/\u{20BB7}{2}/u.test('𠮷𠮷') // true使用 u 修飾符之后 Unicode 表達式+量詞也是可以的。
(4) 預定義模式
u修飾符也影響到預定義模式,能否正確識別碼點大于0xFFFF的Unicode字符。
上面代碼的\S是預定義模式,匹配所有不是空格的字符。只有加了u修飾符,它才能正確匹配碼點大于0xFFFF的Unicode字符。
利用這一點,可以寫出一個正確返回字符串長度的函數。
function codePointLength(text) {const result = text.match(/[\s\S]/gu)return result ? result.length : 0 }const s = '𠮷𠮷's.length // 4 codePointLength(s) // 2(5) i修飾符
有些Unicode字符的編碼不同,但是字型很相近,比如,\u004B與\u212A都是大寫的K。
上面代碼中,不加u修飾符,就無法識別非規范的K字符。
總結
以上是生活随笔為你收集整理的【ES6(2015)】RegExp的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 西贝莜面村员工手册_西贝那达慕草原美食节
- 下一篇: 【ES9(2018)】String 扩展