正則表達式可以被看成是一個強大的通配符(通用匹配符號)。大多數人都應該很熟悉通配符,例如,當我們看到一個諸如“SAMS”的表達式,那麼一個文本串中任何以SAMS開頭的字符串都可以與這個表達式匹配。正則表達式提供了比這種通配符能力更強、控制規則更復雜、功能更完善的匹配機制。
本文將對.NET框架提供的支持正則表達式的類做一個概要介紹。要想獲得有關正則表達式的更多知識,可參考《Regular Expression Pocket Reference 》(O'Reilly Media出版社,ISBN:059600415X)或《Mastering Regular Expressions》,2nd Edition (O'Reilly Media出版社,ISBN:0596002890)等書籍。它們可以教會你如何創建正則表達式,並提供了最常用的正則表達式列表。
輸入確認
正則表達式最重要的用途之一,是確認某個輸入的文本是否符合一個預定義的格式。例如,一個能夠作為密碼的字符串通常要遵循某些強制的規則,以使得密碼字符串難以被破解。這些規則常常被定義為正則表達式。正則表達式也常常用來對一些簡單的輸入執行確認,如確認email地址和電話號碼。
RegEx類是.NET框架中一個處理正則表達式的關鍵類。RegEx類包含了一個名為IsMatch的靜態方法,它返回一個布爾值,這個布爾值說明指定的輸入串是否與一個給定的正則表達式匹配。
下面的代碼中,用到了一個常用的正則表達式,用來測試一個email地址是否有效:
string emailPattern =
@"^([\w-\.]+)@((\[[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.)||[ccc]
(([\w-]+\.)+))([a-zA-Z]{2,4}||[0-9]{1,3})(\]?)$";
Console.Write("Enter an e-mail address:");
string emailInput = Console.ReadLine();
bool match = Regex.IsMatch(emailInput, emailPattern);
if (match)
Console.WriteLine("E-mail address is valid.");
else
Console.WriteLine("Supplied input is not a valid e-mail address.");
不要擔心上面的正則表達式是否有意義。電子郵件模式背後隱藏的基本思想是,它必須包含一些字符,然後是一個@標記,接著是跟在“.”之後的一些字符組合,“.”之後至少要有兩個字符。你可以試著在上面的程序段中使用不同的文本作為輸入,並觀察程序執行的結果。即使你不理解正則表達式本身的含義,也沒有關系。只要知道存在正則表達式這樣一種工具,並且它可以用來對輸入進行確認,這對於你編寫應用程序將是極有幫助的。
從輸入中抽取數據
正則表達式另一個常見用途是用來分析文本,並從用戶的輸入中抽取數據(稱為組匹配)。
C#中的正則表達式包含了一個稱為組(group)的獨特特征。使用組,可以為正則表達式中特定的段賦予一個標識符名稱。當調用match() 方法對模式和輸入數據進行比較時,比較的結果實際上是按照組拆分被匹配的符號串,這樣就允許你從輸入中抽取與每個組相匹配的部分。
例如,我們可以在前一個例子中創建一個名為username的組,用它從一個email地址中提取所有位於@之前的符號串。這樣,在執行匹配時,就可以應用正則表達式中的命名組來抽取用戶名信息。
看看下面的代碼示例,它說明如何從用戶在控制台輸出的URL地址中同時抽取協議名和端口號。正則表達式的一個良好特性是它自身構成了一個語言,這個語言與C、C++、C#或任何其他編程語言沒有依賴關系。這使得我們可以容易地從互聯網或參考文獻的應用案例中借用某些常用的正則表達式。例如,下面例程中的正則表達式借用自MSDN中的一個例子:
string urlPattern = @"^(?<proto>\w+)://[^/]+?(?<port>:\d+)?/";
Console.WriteLine();
Console.Write("Enter a URL for data parsing: ");
string url = Console.ReadLine();
Regex urlExpression = new Regex(urlPattern, RegexOptions.Compiled);
Match urlMatch = urlExpression.Match(url);
Console.WriteLine("The Protocol you entered was " +
urlMatch.Groups["proto"].Value);
Console.WriteLine("The Port Number you entered was " +
urlMatch.Groups["port"].Value);
運行上面的例程時,如果為它輸入一個沒有端口號的URL,你將會注意到程序不輸入任何組的匹配值。這是因為輸入的文本與正則表達式根本不匹配。當輸入與正則表達式不匹配時,顯然就不能夠利用任何命名的組來抽取有意義的數據。如果為上面的例程輸入一個帶端口號並且與正則表達式匹配的URL,程序產生的輸出將如下所示:
Enter a URL for data parsing: http://server.com:2100/home.aspx
The Protocol you entered was http
The Port Number you entered was :2100