unicode 中日韩统一表意文字 java正则表达式
生活随笔
收集整理的這篇文章主要介紹了
unicode 中日韩统一表意文字 java正则表达式
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
漢字正則表達式?^[\u4e00-\u9fa5]{0,}$ 有點過時了
參考wiki:中日韓統一表意文字?:
長度大于4位的unicode 正則 需要 \x{h...h} 形式表示
public class PatternUtil {private PatternUtil() {}public static final String UNIHAN_PATTERN = "^[" +"\\u4E00-\\u9FA5" + //1993中日韓統一表意文字"\\u3007" + //1個漢字(U+3007,〇),于中日韓符號和標點區"\\uFA0E\\uFA0F\\uFA11\\uFA13\\uFA14\\uFA1F\\uFA21\\uFA23\\uFA24\\uFA27-\\uFA29" + //位于“兼容表意文字區”中但實則獨一的漢字"\\u3004-\\u4DB5" + //中日韓統一表意文字擴展區A"\\x{20000}-\\x{2A6D6}" + //中日韓統一表意文字擴展區B"\\u9FA6-\\u9FB3\\u9FB4-\\u9FBB" + //HKSCS-2004中未加入ISO 10646的漢字和GB 18030-2000中未加入ISO 10646的印刷業常用的偏旁和字形部件"\\u9FBC-\\u9FC2\\u4039\\u9FC3" + //7個日語漢字,?拆分為?和?"\\x{2A700}-\\x{2B734}" + //中日韓統一表意文字擴展區C"\\u9FC4-\\u9FCB" + //2個日語用漢字、1個新增漢字、在HKSCS-2004推出后新增的5個香港漢字"\\x{2B740}-\\x{2B81D}" + //中日韓統一表意文字擴展區D 其中包括公安部身份證系統人名和地名用字31字"\\u9FCC" + //1個漢字(U+9FCC?)"\\x{2B820}-\\x{2CEA1}" + //中日韓統一表意文字擴展區E"\\u9FCD-\\u9FCF\\u4CA4\\u9FD0\\u9FD1-\\u9FD5" + //“急用漢字”:《通用規范漢字表》余下未收入的3個漢字,1個從?分離出來的字?,5個其他圖書用字及化學元素用字"\\x{2CEB0}-\\x{2EBE0}" + //中日韓統一表意文字擴展區F"\\u9FD6-\\u9FEA" + //21個漢字"\\u9FEB-\\u9FEF" + // 5個漢字,前三個是新命名的化學元素用字,后兩字來自日本"\\x{30000}-\\x{3134A}" + // 中日韓統一表意文字擴展區G"\\u9FF0-\\u9FFC\\u4DB6-\\u4DBF" + //急用科學與技術用字、10個需分離的漢字"\\x{2A6D7}-\\x{2A6DD}" + //昆曲工尺譜用字"\\x{31400}-\\x{33D1F}" + //預計放置小篆"\\x{33E00}-\\x{355FF}" + //預計放置甲骨文"]{0,}$"; }?java 字符轉義不支持直接輸入5位的unicode,也不支持大U表示,如需轉義表示(通常是字體不支持時)使用Unicode代理對轉義?進行test 測試
如\u2b740 ?需要轉換為\uD86D\uDF40?
Unicode代理對計算器
@Testpublic void pattern(){Assert.isTrue(Pattern.compile(PatternUtil.UNIHAN_PATTERN).matcher("﨏〇???????????" +"??????????????????????????????" +"﨎﨏﨑﨓﨔﨟﨡﨣﨤﨧﨨﨩?????????????\uD86D\uDF40"+"中華人民共和國臺灣省").matches(),"漢字pattern測試失敗");}總結
以上是生活随笔為你收集整理的unicode 中日韩统一表意文字 java正则表达式的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 用智能TFT液晶模块这种串口屏做产品界面
- 下一篇: AMD Opteron