代碼如下
[u4E00-u9FA5]漢字?[uFE30-uFFA0]全角字符
[u4E00-u9FA5]漢字?[uFE30-uFFA0]全角字符
匹配中文字符的正則表達式: [u4e00-u9fa5]
匹配雙字節字符(包括漢字在內):[^x00-xff]
應用:計算字符串的長度(一個雙字節字符長度計2,ASCII字符計1)
代碼如下 String.prototype.len=function(){return this.replace([^x00-xff]/g,"aa").length;}匹配空行的正則表達式:n[s| ]*r
匹配HTML標記的正則表達式:/<(.*)>.*|<(.*) />/
匹配首尾空格的正則表達式:(^s*)|(s*$)
知道它了我們就好解決了
代碼如下 復制代碼public static void regxChinese(){
// 要匹配的字符串
String source = "<span title='5 星級酒店' class='dx dx5'>";
// 將上面要匹配的字符串轉換成小寫
// source = source.toLowerCase();
// 匹配的字符串的正則表達式
String reg_charset = "<span[^>]*?title='([0-9]*[s|S]*[u4E00-u9FA5]*)'[s|S]
*class='[a-z]*[s|S]*[a-z]*[0-9]*'";
Pattern p = Pattern.compile(reg_charset);
Matcher m = p.matcher(source);
while (m.find()) {
System.out.println(m.group(1));
}
}
public static void regxChinese(){
// 要匹配的字符串
String source = "<span title='5 星級酒店' class='dx dx5'>";
// 將上面要匹配的字符串轉換成小寫
// source = source.toLowerCase();
// 匹配的字符串的正則表達式
String reg_charset = "<span[^>]*?title='([0-9]*[s|S]*[u4E00-u9FA5]*)'[s|S]
*class='[a-z]*[s|S]*[a-z]*[0-9]*'";
Pattern p = Pattern.compile(reg_charset);
Matcher m = p.matcher(source);
while (m.find()) {
System.out.println(m.group(1));
}
}
Java的正則表達式是可以匹配中文字符的,同時,用中文字符來寫表達式也是可以的
代碼如下 復制代碼String reg_charset = "<span[^>]*?title='([0-9]*[s|S]*星級酒店)'[s|S]*class='[a-z]*[s|S]
*[a-z]*[0-9]*'";
String reg_charset = "<span[^>]*?title='([0-9]*[s|S]*星級酒店)'[s|S]*class='[a-z]*
[s|S]*[a-z]*[0-9]*'";
一些常用的正則匹配規則
匹配中文字符的正則表達式: [u4e00-u9fa5]
評注:匹配中文還真是個頭疼的事,有了這個表達式就好辦了
匹配雙字節字符(包括漢字在內):[^x00-xff]
評注:可以用來計算字符串的長度(一個雙字節字符長度計2,ASCII字符計1)
匹配空白行的正則表達式:ns*r
評注:可以用來刪除空白行
匹配HTML標記的正則表達式:<(S*?)[^>]*>.*?|<.*? />
評注:網上流傳的版本太糟糕,上面這個也僅僅能匹配部分,對於復雜的嵌套標記依舊無能為力
匹配首尾空白字符的正則表達式:^s*|s*$
評注:可以用來刪除行首行尾的空白字符(包括空格、制表符、換頁符等等),非常有用的表達式
匹配Email地址的正則表達式:w+([-+.]w+)*@w+([-.]w+)*.w+([-.]w+)*
評注:表單驗證時很實用
匹配網址URL的正則表達式:[a-zA-z]+://[^s]*
評注:網上流傳的版本功能很有限,上面這個基本可以滿足需求
匹配帳號是否合法(字母開頭,允許5-16字節,允許字母數字下劃線):^[a-zA-Z][a-zA-Z0-9_]{4,15}$
評注:表單驗證時很實用
匹配國內電話號碼:d{3}-d{8}|d{4}-d{7}
評注:匹配形式如 0511-4405222 或 021-87888822
匹配騰訊QQ號:[1-9][0-9]{4,}
評注:騰訊QQ號從10000開始
匹配中國郵政編碼:[1-9]d{5}(?!d)
評注:中國郵政編碼為6位數字
匹配身份證:d{15}|d{18}
評注:中國的身份證為15位或18位
匹配ip地址:d+.d+.d+.d+
評注:提取ip地址時有用