談談C# replace在正則表達式中的意義。本站提示廣大學習愛好者:(談談C# replace在正則表達式中的意義)文章只能為提供參考,不一定能成為您想要的結果。以下是談談C# replace在正則表達式中的意義正文
若干年來,很多的編程說話和對象都包括對正則表達式的支撐,.NET基本類庫中包括有一個名字空間和一系列可以充足施展規矩表達式威力的類,並且它們也都與將來的Perl 5中的規矩表達式兼容。
另外,regexp類還可以或許完成一些其他的功效,例如從右至左的聯合形式和表達式的編纂等。
在這篇文章中,我將扼要地引見System.Text.RegularExPRession中的類和辦法、一些字符串婚配和調換的例子和組構造的具體情形,最初,還會引見一些你能夠會用到的罕見的表達式。
應當控制的基本常識
規矩表達式的常識能夠是很多編程人員“常學常忘”的常識之一。在這篇文章中,我們將假定你曾經控制了規矩表達式的用法,特別是Perl 5中表達式的用法。.NET的regexp類是Perl 5中表達式的一個超集,是以,從實際上說它將作為一個很好的終點。我們還假定你具有了C#的語法和.NET架構的根本常識。
假如你沒有規矩表達式方面的常識,我建議你從Perl 5的語法著手開端進修。在規矩表達式方面的威望書本是由傑弗裡·弗雷德爾編寫的《控制表達式》一書,關於願望深入懂得表達式的讀者,我們激烈建議浏覽這本書。
RegularExpression組合體
regexp規矩類包括在System.Text.RegularExpressions.dll文件中,在對運用軟件停止編譯時你必需援用這個文件,例如:
csc r:System.Text.RegularExpressions.dll foo.cs
敕令將創立foo.exe文件,它就援用了System.Text.RegularExpressions文件。
名字空間簡介
在名字空間中僅僅包括著6個類和一個界說,它們是:
Capture: 包括一次婚配的成果;
CaptureCollection: Capture的序列;
Group: 一次組記載的成果,由Capture繼續而來;
Match: 一次表達式的婚配成果,由Group繼續而來;
MatchCollection: Match的一個序列;
MatchEvaluator: 履行調換操作時應用的署理;
Regex: 編譯後的表達式的實例。
Regex類中還包括一些靜態的辦法:
Escape: 對字符串中的regex中的本義符停止本義;
IsMatch: 假如表達式在字符串中婚配,該辦法前往一個布爾值;
Match: 前往Match的實例;
Matches: 前往一系列的Match的辦法;
WordStr: 用調換字符串調換婚配的表達式;
Split: 前往一系列由表達式決議的字符串;
Unescape:纰謬字符串中的本義字符本義。
簡略婚配
我們起首從應用Regex、Match類的簡略表達式開端進修。
Match m = Regex.Match("abracadabra", "(a|b|r)+");
我們如今有了一個可以用於測試的Match類的實例,例如:if (m.Success)...
假如想應用婚配的字符串,可以把它轉換成一個字符串:
Console.WriteLine("Match="+m.ToString());
這個例子可以獲得以下的輸入: Match=abra。這就是婚配的字符串了。
字符串的調換
簡略字符串的調換異常直不雅。例以下面的語句:
string s = Regex.WordStr("abracadabra", "abra", "zzzz");
它前往字符串zzzzcadzzzz,一切婚配的字符串都被調換成了zzzzz。
如今我們來看一個比擬龐雜的字符串調換的例子:
string s = Regex.WordStr(" abra ", @"^\s*(.*?)\s*$", "$1");
這個語句前往字符串abra,其前導和後綴的空格都去失落了。
下面的形式關於刪除隨意率性字符串中的前導和後續空格都異常有效。在C#中,我們還常常應用字母字符串,在一個字母字符串中,編譯法式不把字符“ \” 作為本義字符處置。在應用字符“\”指定本義字符時,@"..."長短常有效的。別的值得一提的是$1在字符串調換方面的應用,它注解調換字符串只能包括被調換的字符串。
婚配引擎的細節
如今,我們經由過程一個組構造來懂得一個略微龐雜的例子。看上面的例子:
string text = "abracadabra1abracadabra2abracadabra3"; string pat = @" ( # 第一個組的開端 abra # 婚配字符串abra ( # 第二個組的開端 cad # 婚配字符串cad )? # 第二個組停止(可選) ) # 第一個組停止 + # 婚配一次或屢次 "; //應用x潤飾符疏忽正文 Regex r = new Regex(pat, "x"); //取得組號碼的清單 int[] gnums = r.GetGroupNumbers(); //初次婚配 Match m = r.Match(text); while (m.Success) { //從組1開端 for (int i = 1; i < gnums.Length; i++) { Group g = m.Group(gnums[i]); //取得此次婚配的組 Console.WriteLine("Group"+gnums[i]+"=["+g.ToString()+"]"); //盤算這個組的肇端地位和長度 CaptureCollection cc = g.Captures; for (int j = 0; j < cc.Count; j++) { Capture c = cc[j]; Console.WriteLine(" Capture" + j + "=["+c.ToString() + "] Index=" + c.Index + " Length=" + c.Length); } } //下一個婚配 m = m.NextMatch(); }
這個例子的輸入以下所示:
Group1=[abra] Capture0=[abracad] Index=0 Length=7 Capture1=[abra] Index=7 Length=4 Group2=[cad] Capture0=[cad] Index=4 Length=3 Group1=[abra] Capture0=[abracad] Index=12 Length=7 Capture1=[abra] Index=19 Length=4 Group2=[cad] Capture0=[cad] Index=16 Length=3 Group1=[abra] Capture0=[abracad] Index=24 Length=7 Capture1=[abra] Index=31 Length=4 Group2=[cad] Capture0=[cad] Index=28 Length=3
我們起首從考核字符串pat開端,pat中包括有表達式。第一個capture是從第一個圓括號開端的,然後表達式將婚配到一個abra。第二個capture組從第二個圓括號開端,但第一個capture組還沒有停止,這意味著第一個組婚配的成果是abracad ,而第二個組的婚配成果僅僅是cad。是以假如經由過程應用?符號而使cad成為一項可選的婚配,婚配的成果便可能是abra或abracad。然後,第一個組就會停止,經由過程指定+符號請求表達式停止屢次婚配。
如今我們來看看婚配進程中產生的情形。起首,經由過程挪用Regex的constructor辦法樹立表達式的一個實例,並在個中指定各類選項。在這個例子中,因為在表達式中有正文,是以選用了x選項,別的還應用了一些空格。翻開x選項,表達式將會疏忽正文和個中沒有本義的空格。
然後,獲得表達式中界說的組的編號的清單。你固然可以顯性地應用這些編號,在這裡應用的是編程的辦法。假如應用了定名的組,作為一種樹立疾速索引的門路這類辦法也非常有用。
接上去是完成第一次婚配。經由過程一個輪回測試以後的婚配能否勝利,接上去是從group 1開端反復對組清單履行這一操作。在這個例子中沒有應用group 0的緣由是group 0是一個完整婚配的字符串,假如要經由過程搜集全體婚配的字符串作為一個單一的字符串,就會用到group 0了。
我們跟蹤每一個group中的CaptureCollection。平日情形下每次婚配、每一個group中只能有一個capture,但本例中的Group1則有兩個capture:Capture0和Capture1。假如你僅須要Group1的ToString,就會只獲得abra,固然它也會與abracad婚配。組中ToString的值就是其CaptureCollection中最初一個Capture的值,這恰是我們所須要的。假如你願望全部進程在婚配abra後停止,就應當從表達式中刪除+符號,讓regex引擎曉得我們只須要對表達式停止婚配。
基於進程和基於表達式辦法的比擬
普通情形下,應用規矩表達式的用戶可以分為以下二年夜類:第一類用戶盡可能不應用規矩表達式,而是應用進程來履行一些須要反復的操作;第二類用戶則充足應用規矩表達式處置引擎的功效和威力,而盡量少地應用進程。
關於我們年夜多半用戶而言,最好的計劃莫過於兩者兼而用之了。我願望這篇文章可以或許解釋.NET說話中regexp類的感化和它在機能和龐雜性之間的優、劣點。
基於進程的形式
我們在編程中常常須要用到的一個功效是對字符串中的一部門停止婚配或其他一些對字符串處置,上面是一個對字符串中的單詞停止婚配的例子:
string text = "the quick red fox jumped over the lazy brown dog."; System.Console.WriteLine("text=[" + text + "]"); string result = ""; string pattern = @"\w+|\W+"; foreach (Match m in Regex.Matches(text, pattern)) { // 獲得婚配的字符串 string x = m.ToString(); // 假如第一個字符是小寫 if (char.IsLower(x[0])) // 釀成年夜寫 x = char.ToUpper(x[0]) + x.Substring(1, x.Length-1); // 搜集一切的字符 result += x; } System.Console.WriteLine("result=[" + result + "]");
正象下面的例子所示,我們應用了C#說話中的foreach語句處置每一個婚配的字符,並完成響應的處置,在這個例子中,新創立了一個result字符串。這個例子的輸入所下所示:
text=[the quick red fox jumped over the lazy brown dog.] result=[The Quick Red Fox Jumped Over The Lazy Brown Dog.]
基於表達式的形式
完成上例中的功效的另外一條門路是經由過程一個MatchEvaluator,新的代碼以下所示:
static string CapText(Match m) { //獲得婚配的字符串 string x = m.ToString(); // 假如第一個字符是小寫 if (char.IsLower(x[0])) // 轉換為年夜寫 return char.ToUpper(x[0]) + x.Substring(1, x.Length-1); return x; } static void Main() { string text = "the quick red fox jumped over the lazy brown dog."; System.Console.WriteLine("text=[" + text + "]"); string pattern = @"\w+"; string result = Regex.WordStr(text, pattern, new MatchEvaluator(Test.CapText)); System.Console.WriteLine("result=[" + result + "]"); }
同時須要留意的是,因為僅僅須要對單詞停止修正而無需對非單詞停止修正,這個形式顯得異常簡略。
經常使用表達式
為了可以或許更好地輿解若何在C#情況中應用規矩表達式,我寫出一些對你來講能夠有效的規矩表達式,這些表達式在其他的情況中都被應用過,願望可以或許對你有所贊助。
羅馬數字
string p1 = "^m*(d?c{0,3}|c[dm])" + "(l?x{0,3}|x[lc])(v?i{0,3}|i[vx])$"; string t1 = "vii"; Match m1 = Regex.Match(t1, p1);
交流前二個單詞
string t2 = "the quick brown fox"; string p2 = @"(\S+)(\s+)(\S+)"; Regex x2 = new Regex(p2); string r2 = x2.WordStr(t2, "$3$2$1", 1);
關健字=值
string t3 = "myval = 3"; string p3 = @"(\w+)\s*=\s*(.*)\s*$"; Match m3 = Regex.Match(t3, p3);
完成每行80個字符
string t4 = "********************" + "******************************" + "******************************"; string p4 = ".{80,}"; Match m4 = Regex.Match(t4, p4);
月/日/年 小時:分:秒的時光格局
string t5 = "01/01/01 16:10:01"; string p5 = @"(\d+)/(\d+)/(\d+) (\d+):(\d+):(\d+)"; Match m5 = Regex.Match(t5, p5);
轉變目次(僅實用於Windows平台)
string t6 = @"C:\Documents and Settings\user1\Desktop\"; string r6 = Regex.WordStr(t6,@"\\user1\\", @\\user2\\);
擴大16位本義符
string t7 = "%41"; // capital A string p7 = "%([0-9A-Fa-f][0-9A-Fa-f])"; string r7 = Regex.WordStr(t7, p7, HexConvert);
刪除C說話中的正文(有待完美)
string t8 = @" /* * 傳統作風的正文 */ "; string p8 = @" /\* # 婚配正文開端的定界符 .*? # 婚配正文 \*/ # 婚配正文停止定界符 "; string r8 = Regex.WordStr(t8, p8, "", "xs");
刪除字符串中開端和停止處的空格
string t9a = " leading"; string p9a = @"^\s+"; string r9a = Regex.WordStr(t9a, p9a, ""); string t9b = "trailing "; string p9b = @"\s+$"; string r9b = Regex.WordStr(t9b, p9b, "");
在字符\後添加字符n,使之成為真實的新行
string t10 = @"\ntest\n"; string r10 = Regex.WordStr(t10, @"\\n", "\n");
轉換ip地址
string t11 = "55.54.53.52"; string p11 = "^" + @"([01]?\d\d|2[0-4]\d|25[0-5])\." + @"([01]?\d\d|2[0-4]\d|25[0-5])\." + @"([01]?\d\d|2[0-4]\d|25[0-5])\." + @"([01]?\d\d|2[0-4]\d|25[0-5])" + "$"; Match m11 = Regex.Match(t11, p11);
刪除文件名包括的途徑
string t12 = @"c:\file.txt"; string p12 = @"^.*\\"; string r12 = Regex.WordStr(t12, p12, "");
聯接多行字符串中的行
string t13 = @"this is a split line"; string p13 = @"\s*\r?\n\s*"; string r13 = Regex.WordStr(t13, p13, " ");
提取字符串中的一切數字
string t14 = @" test 1 test 2.3 test 47 "; string p14 = @"(\d+\.?\d*|\.\d+)"; MatchCollection mc14 = Regex.Matches(t14, p14);
找出一切的年夜寫字母
string t15 = "This IS a Test OF ALL Caps"; string p15 = @"(\b[^\Wa-z0-9_]+\b)"; MatchCollection mc15 = Regex.Matches(t15, p15);
找出小寫的單詞
string t16 = "This is A Test of lowercase"; string p16 = @"(\b[^\WA-Z0-9_]+\b)"; MatchCollection mc16 = Regex.Matches(t16, p16);
找出第一個字母為年夜寫的單詞
string t17 = "This is A Test of Initial Caps"; string p17 = @"(\b[^\Wa-z0-9_][^\WA-Z0-9_]*\b)"; MatchCollection mc17 = Regex.Matches(t17, p17);
找出簡略的HTML說話中的鏈接
string t18 = @" <html> <a href=""first.htm"">first tag text</a> <a href=""next.htm"">next tag text</a> </html> "; string p18 = @"<A[^>]*?HREF\s*=\s*[""']?" + @"([^'"" >]+?)[ '""]?>"; MatchCollection mc18 = Regex.Matches(t18, p18, "si");
以上所述是小編給年夜家分享的C# replace在正則表達式中的意義,願望對年夜家有所贊助!