程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
 程式師世界 >> 編程語言 >> C語言 >> 關於C語言 >> C#中正則表達式的3種匹配模式

C#中正則表達式的3種匹配模式

編輯:關於C語言

在C#中,我們一般使用Regex類來表示一個正則表達式。一般正則表達式引擎支持以下3種匹配模式:單行模式(Singleline)、多行模式(Multiline)與忽略大小寫(IgnoreCase)。

1. 單行模式(Singleline)
MSDN定義:更改點 (.) 的含義,使它與每一個字符匹配(而不是與除 \n 之外的每個字符匹配)。
使用單行模式的典型場景是獲取網頁源碼中的信息。

示例:

我們使用WebBrowser控件,從http://www.xxx.com/1.htm上獲取了如下Html源碼,它存儲在變量str中:

<Html>
< body>
< div>
Line 1
Line 2
< /div>
< /body>
< /Html>

我們想把div標簽以及其中的內容提取出來,編寫代碼如下:

復制代碼 代碼如下:
string pattern = @"<div>.*</div>";
Regex regex = new Regex(pattern);
if (regex.IsMatch(str))
Console.WriteLine(regex.Match(str).Value);
else
Console.WriteLine("Mismatch!");

//結果為:Mismatch!

錯誤分析:

一般認為點符號(.)是匹配任意單個字符的,而(.*)就是匹配任意多個字符。但實際上點符號不能匹配換行符。在Windows中與它等效的表達式為[^\r\n]。
而我們從網站上獲取的Html源碼,極少有不換行的。這時候單行模式派上用場了,它可以改變點符號的意義。修改regex實例的構造函數,用RegexOptions.Singleline來聲明使用單行模式:

復制代碼 代碼如下:
string pattern = @"<div>.*</div>";
Regex regex = new Regex(pattern, RegexOptions.Singleline);
if (regex.IsMatch(str))
Console.WriteLine(regex.Match(str).Value);
else
Console.WriteLine("Mismatch!");

/*
結果為:
<div>
Line 1
Line 2
< /div>
*/

單行模式的嵌入修飾符:

我們可以直接在正則表達式中嵌入單行模式:

(?s)<div>.*</div>

(?s)修飾符說明,其後面的表達式采用單行模式。所以使用時請不要將它放在末尾。另外可以使用(?-s)關閉單行模式。

注意:嵌入模式的優先級要高於Regex類的RegexOptions設置,所以使用了(?s)後,無論是否使用RegexOptions.Singleline,均按照單行模式解析。

2. 多行模式(Multiline)

MSDN定義:更改 ^ 和 $ 的含義,使它們分別在任意一行的行首和行尾匹配,而不僅僅在整個字符串的開頭和結尾匹配。

示例:

有一個文本文件,它的每一行是一個用戶名,將文件讀入變量str中進行處理。其內容如下:

二十四畫生
TerryLee
莫相會
Dflying Chen
Rainy

借用博客園各位前輩的大名:)

我們想找出一個使用英文字母開頭的用戶名,編寫代碼如下:

復制代碼 代碼如下:
string pattern = @"^[A-Za-z]+.*";
Regex regex = new Regex(pattern);
if (regex.IsMatch(str))
Console.WriteLine(regex.Match(str).Value);
else
Console.WriteLine("Mismatch!");

//結果為:Mismatch!

錯誤分析:

(^)是字符串的起始錨定,str的第一個字符是一個中文字,所以匹配不上。我們就可以使用多行模式來改變(^)的含義,使它匹配每一行的起始,而不是整個字符串的起始。

更改代碼如下:

復制代碼 代碼如下:
string pattern = @"^[A-Za-z]+.*";
Regex regex = new Regex(pattern, RegexOptions.Multiline);
if (regex.IsMatch(str))
Console.WriteLine(regex.Match(str).Value);
else
Console.WriteLine("Mismatch!");

//結果為:TerryLee

同時,多行模式也會改變($)的含義,使它匹配每一行的結尾,而不是整個字符串的結尾。

與(^)和($)不同的是,(\A)和(\Z)並不受多行模式的影響,永遠匹配整個字符串的起始和結尾。

多行模式的嵌入修飾符:(?m)與(?-m)

3. 忽略大小寫(IgnoreCase)

MSDN定義:指定不區分大小寫的匹配。

這個模式很容易理解,它認為大小寫字符是相同的。我們仍以上例來說明。

示例:

復制代碼 代碼如下:
string pattern = @"^[a-z]+.*";
Regex regex = new Regex(pattern, RegexOptions.Multiline | RegexOptions.IgnoreCase);
if (regex.IsMatch(str))
Console.WriteLine(regex.Match(str).Value);
else
Console.WriteLine("Mismatch!");

//結果為:TerryLee

分析:請注意這次使用的正則表達式,我們並沒有寫入大寫字母,但卻匹配了以大寫字母開頭的名字,這就是忽略大小寫的效果。

忽略大小寫的嵌入修飾符:(?i)與(?-i)

總結:

最後我們用一個表格來總結一下這三個模式

定義 影響的表達式 RegexOptions枚舉 嵌入標識符 單行模式 更改點 (.) 的含義,使它與每一個字符匹配(而不是與除 \n 之外的每個字符匹配)。 Singleline (?s) 多行模式 更改 ^ 和 $ 的含義,使它們分別在任意一行的行首和行尾匹配,而不僅僅在整個字符串的開頭和結尾匹配。 Multiline (?m) 忽略大小寫 指定不區分大小寫的匹配。 IgnoreCase (?i)

  1. 上一頁:
  2. 下一頁:
Copyright © 程式師世界 All Rights Reserved