正則表達式:
正則表達式是一種可以用於模式匹配和替換的強有力的工具,一個正則表達式就是由普通的字符(例如字符 a 到 z)以及特殊字符(稱為元字符)組成的文字模式,它描述在查找文字主體時待匹配的一個或多個字符串。正則表達式作為一個模板,將某個字符模式與所搜索的字符串進行匹配。
正則表達式在字符數據處理中起著非常重要的作用,我們可以用正則表達式完成大部分的數據分析處理工作,如:判斷一個串是否是數字、是否是有效的Email地址,從海量的文字資料中提取有價值的數據等等,如果不使用正則表達式,那麼實現的程序可能會很長,並且容易出錯。對這點本人深有體會,面對大量工具書電子檔資料的整理工作,如果不懂得應用正則表達式來處理,那麼將是很痛苦的一件事情,反之則將可以輕松地完成,獲得事半功倍的效果。
由於本文目的是要介紹如何在JAVA裡運用正則表達式,因此對剛接觸正則表達式的讀者請參考有關資料,在此因篇幅有限不作介紹。
JAVA對正則表達式的支持:
在JDK1.3或之前的JDK版本中並沒有包含正則表達式庫可供JAVA程序員使用,之前我們一般都在使用第三方提供的正則表達式庫,這些第三方庫中有源代碼開放的,也有需付費購買的,而現時在JDK1.4的測試版中也已經包含有正則表達式庫---java.util.regex。
故此現在我們有很多面向JAVA的正則表達式庫可供選擇,以下我將介紹兩個較具代表性的 Jakarta-ORO和 java.util.regex,首先當然是本人一直在用的 Jakarta-ORO:
Jakarta-ORO正則表達式庫
1.簡介:
Jakarta-ORO是最全面以及優化得最好的正則表達式API之一,Jakarta-ORO庫以前叫做OROMatcher,是由Daniel F. Savarese編寫,後來他將其贈與Jakarta Project,讀者可在Apache.org的網站 下載該API包。
許多源代碼開放的正則表達式庫都是支持Perl5兼容的正則表達式語法,Jakarta-ORO正則表達式庫也不例外,他與Perl 5正則表達式完全兼容。
2.對象與其方法:
★PatternCompiler對象:
我們在使用Jakarta-ORO API包時,最先要做的是,創建一個Perl5Compiler類的實例,並把它賦值給PatternCompiler接口對象。Perl5Compiler是PatternCompiler接口的一個實現,允許你把正則表達式編譯成用來匹配的Pattern對象。
PatternCompiler compiler=new Perl5Compiler();
★Pattern對象:
要把所對應的正則表達式編譯成Pattern對象,需要調用compiler對象的compile()方法,並在調用參數中指定正則表達式。舉個例子,你可以按照下面這種方式編譯正則表達式"s[ahkl]y":
Pattern pattern=null;
try {
pattern=compiler.compile("s[ahkl]y ");
} catch (MalformedPatternException e) {
e.printStackTrace();
}
在默認的情況下,編譯器會創建一個對大小寫敏感的模式(pattern)。因此,上面代碼編譯得到的模式只匹配"say"、"shy"、 "sky"和"sly",但不匹配"Say"和"skY"。要創建一個大小寫不敏感的模式,你應該在調用編譯器的時候指定一個額外的參數:
pattern=compiler.compile("s[ahkl]y",Perl5Compiler.CASE_INSENSITIVE_MASK);
Pattern對象創建好之後,就可以通過PatternMatcher類用該Pattern對象進行模式匹配。
★PatternMatcher對象:
PatternMatcher對象依據Pattern對象和字符串展開匹配檢查。你要實例化一個Perl5Matcher類並把結果賦值給PatternMatcher接口。Perl5Matcher類是PatternMatcher接口的一個實現,它根據Perl 5正則表達式語法進行模式匹配:
PatternMatcher matcher=new Perl5Matcher();
PatternMatcher對象提供了多個方法進行匹配操作,這些方法的第一個參數都是需要根據正則表達式進行匹配的字符串:
boolean matches(String input, Pattern pattern):當要求輸入的字符串input和正則表達式pattern精確匹配時使用該方法。也就是說當正則表達式完整地描述輸入字符串時返回真值。
boolean matchesPrefix(String input, Pattern pattern):要求正則表達式匹配輸入字符串起始部分時使用該方法。也就是說當輸入字符串的起始部分與正則表達式匹配時返回真值。
boolean contains(String input, Pattern pattern):當正則表達式要匹配輸入字符串的一部分時使用該方法。當正則表達式為輸入字符串的子串時返回真值。
但以上三種方法只會查找輸入字符串中匹配正則表達式的第一個對象,如果當字符串可能有多個子串匹配給定的正則表達式時,那麼你就可以在調用上面三個方法時用PatternMatcherInput對象作為參數替代String對象,這樣就可以從字符串中最後一次匹配的位置開始繼續進行匹配,這樣就方便的多了。
用PatternMatcherInput對象作為參數替代String時,上述三個方法的語法如下:
boolean matches(PatternMatcherInput input, Pattern pattern)
boolean matchesPrefix(PatternMatcherInput input, Pattern pattern)
boolean contains(PatternMatcherInput input, Pattern pattern)
★Util.substitute()方法:
查找後需要要進行替換,我們就要用到Util.substitute()方法,其語法如下:
public static String substitute(PatternMatcher matcher,
Pattern pattern,Substitution sub,String input,
int numSubs)
前兩個參數分別為PatternMatcher和Pattern對象。而第三個參數是個Substiution對象,由它來決定替換操作如何進行。第四個參數是要進行替換操作的目標字符串,最後一個參數用來指定是否替換模式的所有匹配子串(Util.SUBSTITUTE_ALL),或只進行指定次數的替換。
在這裡我相信有必要詳細解說一下第三個參數Substiution對象,因為它將決定替換將怎樣進行。
Substiution:
Substiution是一個接口類,它為你提供了在使用Util.substitute()方法時控制替換方式的手段,它有兩個標准的實現類:StringSubstitution與Perl5Substitution。當然,同時你也可以生成自己的實現類來定制你所需要的特殊替換動作。
StringSubstitution:
StringSubstitution 實現的是簡單的純文字替換手段,它有兩個構造方法:
StringSubstitution()->缺省的構造方法,初始化一個包含零長度字符串的替換對象。
StringSubstitution(java.lang.String substitution)->初始化一個給定字符串的替換對象。
Perl5Substitution:
Perl5Substitution 是StringSubstitution的子類,它在實現純文字替換手段的同時也允許進行針對MATH類裡各匹配組的PERL5變量的替換,所以他的替換手段比其直接父類StringSubstitution更為多元化。
它有三個構造器:
Perl5Substitution()
Perl5Substitution(java.lang.String substitution)
Perl5Substitution(java.lang.String substitution, int numInterpolations)
前兩種構造方法與StringSubstitution一樣,而第三種構造方法下面將會介紹到。
在 Perl5Substitution的替換字符串中可以包含用來替代在正則表達式裡由小擴號圍起來的匹配組的變量,這些變量是由$1, $2,$3等形式來標識。我們可以用一個例子來解釋怎樣使用替換變量來進行替換:
假設我們有正則表達式模式為 b\d+:(也就是 b[0-9]+:),而我們想把所有匹配的字符串中的"b"都改為"a", 而":"則改為"-",而其余部分則不作修改,如我們輸入字符串為"EXAMPLE b123:",經過替換後就應該變成"EXAMPLE a123-"。要做到這點,我們就首先要把不做替換的部分用分組符號小括號包起來,這樣正則表達式就變為"b(\d+):",而構造 Perl5Substitution 對象時其替換字符串就應該是"a$1-",也就是構造式為 Perl5Substitution("a$1-"),表示在使用 Util.substitute() 方法時只要在目標字符串裡找到和正則表達式" b(\d+): "相匹配的子串都用替換字符串來替換,而變量 $1 表示如果和正則表達式裡第一個組相匹配的內容則照般原文插到 $1 所在的為置,如在"EXAMPLE b123:"中和正則表達式相匹配的部分是"b123:",而其中和第一分組"(\d+)"相匹配的部分則是"123",所以最後替換結果為"EXAMPLE a123-"。
有一點需要清楚的是,如果你把構造器Perl5Substitution(java.lang.String substitution,int numInterpolations)
中的numInterpolations參數設為INTERPOLATE_ALL,那麼當每次找到一個匹配字串時,替換變量($1,$2等)所指向的內容都根據目前匹配字串來更新,但是如果numInterpolations參數設為一個正整數N時,那麼在替換時就只會在前N次匹配發生時替換變量會跟隨匹配對象來調整所代表的內容,但N次之後就以一致以第N次替換變量所代表內容來做為以後替換結果。
舉個例子會更好理解:
假如沿用以上例子中的正則表達式模式以及替換內容來進行替換工作,設目標字符串為"Tank b123: 85 Tank b256: 32 Tank b78: 22",並且設numInterpolations參數為INTERPOLATE_ALL,而Util.substitute()方法中的numSub變量設為SUBSTITUTE_ALL(請參考上文Util.substitute()方法內容),那麼你獲得的替換結果將會是: Tank a123- 85 Tank a256- 32 Tank a78- 22
但是如果你把numInterpolations設為2,並且numSubs依然設為SUBSTITUTE_ALL,那麼這時你獲得的結果則會是: Tank a123- 85 Tank a256- 32 Tank a256- 22
你要注意到最後一個替換所用變量$1所代表的內容與第二個$1一樣為"256",而不是預期的"78",因為在替換進行中,替換變量$1只根據匹配內容進行了兩次更新,最後一次就使第二次匹配時所更新的結果,那麼我們可以由此知道,如果numInterpolations設為1,那麼結果將是: Tank a123- 85 Tank a123- 32 Tank a123- 22
3.應用示例:
剛好前段時間公司准備出一個《伊索預言》的英語學習互動教材,其中有電子檔資料的整理工作,我們就以此為例來看一下Jakarta-ORO與JDBC2.0 API結合起來對數據庫內的資料進行簡單提取與整理的實現。假設由錄入部的同事送過來的存放在MS SQLSERVER 7數據庫裡的電子檔的表結構如下(注:或許在不同的DBMS中有相應的正則表達式的應用,但這不在本文討論范圍內):
表名:AESOP, 表中每條記錄包含有三列:
ID(int):單詞索引號
WORD(varchar):單詞
CONTENT(varchar):存放單詞的相關解釋與例句等內容
其中CONTENT列中內容的格式如下:
[音標] [詞性] (解釋){(例句一/例句解釋/例句中該詞的詞性: 單詞在句中的意思) (例句二/例句解釋/例句中該詞的詞性: 單詞在句中的意思)}
如對應單詞Kevin,CONTENT中的內容如下:
['kevin] [名詞](人名凱文){(Kevin loves comic./凱文愛漫畫/名詞: 凱文)( Kevin is living in ZhuHai now./凱文現住在珠海/名詞: 凱文)}
我們的例子主要針對CONTENT列中內容進行字符串處理。
★查找單個匹配:
首先,讓我們嘗試把CONTNET列中的[音標]字段的內容列示出來,由於所有單詞的記錄中都有這一項並且都在字串開始位置,所以這個查找工作比較簡單:
確定相應的正則表達式:\[[^]]+\]
這個是很簡單的正則表達式,其意思是要求相匹配的字符串必須為以一對中括號包含的所有內容,如['kevin] 、[名詞]等,但內容中不包括"]"符號,也就是要避免出現"[][]"會作為一個匹配對象的情況出現(有關正則表達式的基礎知識請參照有關資料,這裡不再詳述)。
注意,在 Java 中,你必須對每一個向前的斜槓("\")進行轉義處理。所以我們要在上面的正則表達式裡每個"\"前面加上一個"\"以免出現編譯錯誤,也就是在 JAVA 中初始化正則表達式的字符串的語句應該為:
String restring=" \\[[^]]+\\]";
並且在表達式裡每個符號中間不能有空格,否則就會同樣出現編譯錯誤。
實例化PatternCompiler對象,創建Pattern對象
PatternCompiler compiler=new Perl5Compiler();
Pattern pattern=compiler.compile(restring);
創建PatternMatcher對象,調用PatternMatcher接口的contain()方法檢查匹配情況:
PatternMatcher matcher=new Perl5Matcher();
if (matcher.contains(content,pattern)) {
//處理代碼片段
}
這裡matcher.contains(content,pattern)中的參數 content是從數據庫裡取來的字符串變量。該方法只會查到第一個匹配的對象字符串,但是由於音標項均在CONETNET內容字符串中的起始位置,所以用這個方法就已經可以保證把每條記錄裡的音標項找出來了,但更為直接與合理的辦法是使用boolean matchesPrefix(PatternMatcherInput input, Pattern pattern)方法,該方法驗證目標字符串是否以正則表達式所匹配的字串為起始。
具體實現的完整的程序代碼如下:
package RegularExpressions; //import …… import org.apache.oro.text.regex.*; // 使用 Jakarta-ORO 正則表達式庫前需要把它加到 CLASSPATH 裡面,如果用 IDE 是 //JBUILDER,那麼也可以在 JBUILDER 裡直接自建新庫。 public class yisuo{ public static void main(String[] args){ try{ // 使用 JDBC DRIVER 進行 DBMS 連接,這裡我使用的是一個第三方 JDBC //DRIVER,Microsoft 本身也有一個面向 SQLSERVER7/2000 的免費 JDBC //DRIVER,但其性能真的是奇差,不用也罷。 Class.forName("com.jnetdirect.jsql.JSQLDriver"); Connection con=DriverManager.getConnection ("jdbc:JSQLConnect://kevin:1433","kevin chen","re"); Statement stmt = con.createStatement(ResultSet.TYPE_SCROLL_SENSITIVE, ResultSet.CONCUR_UPDATABLE); // 為使用 Jakarta-ORO 庫而創建相應的對象 String rsstring=" \\[[^]]+\\]"; PatternCompiler orocom=new Perl5Compiler(); Pattern pattern=orocom.compile(rsstring); PatternMatcher matcher=new Perl5Matcher(); ResultSet uprs = stmt.executeQuery("SELECT * FROM aesop"); while (uprs.next()) { Stirng word=uprs.getString("word"); Stirng content=uprs.getString("content"); if(matcher.contains(content,pattern)){ // 或 if(matcher.matchesPrefix(content,pattern)){ MatchResult result=matcher.getMatch(); Stirng pure=result.toString(); System.out.println(word+"的音標為:"+pure); } } } catch(Exception e) { System.out.println(e); } } }
輸出結果為:kevin的音標為['kevin]
在這個處理中我是用toString()方法來取得結果,但是如果正則表達式裡是用了分組符號(圓括號),那麼就可以用group(int gid)的方法來取得相應各組匹配的結果,如正則表達式改為" (\[[^]]+\])",那麼就可以用以下方法來取得結果:pure=result.group(0);
用程序驗證,輸出結果同樣為:kevin的音標為['kevin]
而如果正則表達式為(\[[^]]+\])(\[[^]]+\]),則會查找到兩個連續的方括號所包含的內容,也就找到[音標] [詞性]兩項,但是兩項的結果分別在兩個組裡面,分別由下面語句獲得結果:
result.group(0)->返回[音標] [詞性]兩項內容,也就是與整個正則表達式相匹配的結果字符串,在這裡也就為['kevin] [名詞]
result.group(1) ->返回[音標]項內容,結果應是['kevin]
result.group(2) ->返回[詞性]項內容,結果應是[名詞]
繼續用程序驗證,發現輸出並不正確,主要是當內容有中文時就不能成功匹配,考慮到可能是Jakarta-ORO正則表達式庫版本不支持中文的問題,回看一下原來我一直用的還是2.0.1的老版本,馬上到Jakarta.org上下載最新的2.0.4版本裝上再用程序驗證,得出的結果就和預期一樣正確。
★查找多個匹配:
經過第一步的嘗試使用Jakarta-ORO後,我們已經知道了如何正確使用該API包來查找目標字符串裡一個匹配的子串,下面我們接著來看一看當目標字符串裡包含不止一個匹配的子串時我們如何把它們一個接一個找出來進行相應的處理。
首先我們先試個簡單的應用,假設我們想把CONTNET字段內容裡所有用方括號包起來的字串都找出來,很清楚地,CONTNET字段的內容裡面就只有兩項匹配的內容:[音標]和 [詞性],剛才我們其實已經把它們分別找出來了,但是我們所用的方法是分組方法,把"[音標] [詞性]"作為一整個正則表達式匹配的內容先找到,再根據分組把[音標]和 [詞性]分別挑出來。但是現在我們需要做的是把[音標]和[詞性]分別做為與同一個正則表達式匹配的內容,先找到一個接著再找下一個,也就是剛才我們的表達式為(\[[^]]+\])(\[[^]]+\]), 而現在應為" \[[^]]+\] "。
我們已經知道在匹配操作的三個方法裡只要用PatternMatcherInput對象作為參數替代String對象就可以從字符串中最後一次匹配的位置開始繼續進行匹配,實現的程序片段如下:
PatternMatcherInput input=new PatternMatcherInput(content);
while (matcher.contains(input,pattern)) {
result=matcher.getMatch();
System.out.println(result.group(0))
}
輸出結果為:['kevin]
[名詞]
接著我們來做復雜一點的處理,就是我們要先把下面內容:
['kevin] [名詞](人名凱文){(Kevin loves comic./凱文愛漫畫/名詞: 凱文)( Kevin is living in ZhuHai now. /凱文現住在珠海/名詞: 凱文)}中的整個例句部分(也就是由大括號所包含的部分)找出來,再分別把例句一和例句二找出,而各例句中的各項內容(英文句、中文句、詞性、解釋)也要分項列出。
第一步當然是要定出相應的正則表達式,需要有兩個,一是和整個例句部分(也就是由大括號包起來的部分)匹配的正則表達式:"\{.+\}",
另一個則要和每個例句部分匹配(也就是小括號中的內容),:\(([^)]+\)
而且由於要把例句的各項分離出來,所以要再把裡面的各部分用分組的方法匹配出來:" ([^(]+)/(.+)/(.+):([^)]+) "。
為了簡便起見,我們不再和從數據庫裡讀出,而是構造一個包含同樣內容的字符串變量,程序片段如下:
try{ String content="['kevin] [ 名詞 ](人名凱文){(Kevin loves comic./ 凱文愛漫畫 " + "/ 名詞 : 凱文 ) (Kevin is living in ZhuHai now./ 凱文現住在珠海 / 名詞 : " + "凱文 )}"; String ps1="\\{.+\\}"; String ps2="\\([^)]+\\)"; String ps3="([^(]+)/(.+)/(.+):([^)]+)"; String sentence; PatternCompiler orocom=new Perl5Compiler(); Pattern pattern1=orocom.compile(ps1); Pattern pattern2=orocom.compile(ps2); Pattern pattern3=orocom.compile(ps3); PatternMatcher matcher=new Perl5Matcher(); // 先找出整個例句部分 if (matcher.contains(content,pattern1)) { MatchResult result=matcher.getMatch(); String example=result.toString(); PatternMatcherInput input=new PatternMatcherInput(example); // 分別找出例句一和例句二 while (matcher.contains(input,pattern2)){ result=matcher.getMatch(); sentence=result.toString(); // 把每個例句裡的各項用分組的辦法分隔出來 if (matcher.contains(sentence,pattern3)){ result=matcher.getMatch(); System.out.println("英文句 : "+result.group(1)); System.out.println("句子中文翻譯 : "+result.group(2)); System.out.println("詞性 : "+result.group(3)); System.out.println("意思 : "+result.group(4)); } } } } catch(Exception e) { System.out.println(e); }
輸出結果為:
英文句: Kevin loves comic.
句子中文翻譯: 凱文愛漫畫
詞性: 名詞
意思: 凱文
英文句: Kevin is living in ZhuHai now.
句子中文翻譯: 凱文現住在珠海
詞性: 名詞
意思: 凱文
★查找替換:
以上的兩個應用都是單純在查找字符串匹配方面的,我們再來看一下查找後如何對目標字符串進行替換。
例如我現在想把第二個例句進行改動,換為:Kevin has seen《LEON》seveal times,because it is a good film./ 凱文已經看過《這個殺手不太冷》幾次了,因為它是一部好電影。/名詞:凱文。
也就是把
['kevin] [名詞](人名凱文){(Kevin loves comic./凱文愛漫畫/名詞: 凱文)( Kevin is living in ZhuHai now. /凱文現住在珠海/名詞: 凱文)}
改為:
['kevin] [名詞](人名凱文){(Kevin loves comic./凱文愛漫畫/名詞: 凱文)( Kevin has seen《LEON》seveal times,because it is a good film./ 凱文已經看過《這個殺手不太冷》幾次了,因為它是一部好電影。/名詞:凱文。)}
之前,我們已經了解Util.substitute()方法與Substiution接口,以及Substiution的兩個實現類StringSubstitution和Perl5Substitution,我們就來看看怎麼用Util.substitute()方法配合Perl5Substitution來完成我們上面提出的替換要求,確定正則表達式:
我們要先找到其中的整個例句部分,也就是由大括號包起來的字串,並且把兩個例句分別分組,所以正則表達式為:"\{(\([^)]+\))(\([^)]+\))\}",如果用替換變量來代替分組,那麼上面的表達式可以看為"\{$1$2\}", 這樣就可以更容易看出替換變量與分組間的關系。
根據上面的正則表達式Perl5Substitution類可以這樣構造: Perl5Substitution("{$1( Kevin has seen《LEON》seveal times,because it is a good film./ 凱文已經看過《這個殺手不太冷》幾次了,因為它是一部好電影。/名詞:凱文。)}")
再根據這個Perl5Substitution對象來使用Util.substitute()方法便可以完成替換了,實現的代碼片段如下:
try{ String content="['kevin] [ 名詞 ](人名凱文){(Kevin loves comic. / 凱文愛漫畫 / 名詞 : 凱文 )(Kevin lives in ZhuHai now./ 凱文現住在珠海 / 名詞 : 凱文 )}"; String ps1="\\{(\\([^)]+\\))(\\([^)]+\\))\\}"; String sentence; String pure; PatternCompiler orocom=new Perl5Compiler(); Pattern pattern1=orocom.compile(ps1); PatternMatcher matcher=new Perl5Matcher(); String result=Util.substitute(matcher, pattern1,new Perl5Substitution( "{$1( Kevin has seen 《 LEON 》 seveal times,because it is a good film./ 凱文已經看過《這個殺手不太冷》幾次了,因為它是一部好電影。/ 名詞 : 凱文。)}",1), content,Util.SUBSTITUTE_ALL); System.out.println(result); } catch(Exception e) { System.out.println(e); }
輸出結果是正確的,為:
['kevin] [名詞](人名凱文){(Kevin loves comic./凱文愛漫畫/名詞: 凱文)( Kevin has seen《LEON》seveal times,because it is a good film./ 凱文已經看過《這個殺手不太冷》幾次了,因為它是一部好電影。/名詞:凱文。)}
至於有關使用numInterpolations參數的構造器用法,讀者只要根據上面的介紹自己動手試一下就會清楚了,在此就不再例述。
總結:
本文首先介紹了Jakarta-ORO正則表達式庫的對象與方法,並且接著舉例讓讀者對實際應用有進一步的了解,雖然例子都比較簡單,但希望讀者們在看了該文後對Jakarta-ORO正則表達式庫有一定的認知,在實際工作中有所幫助與啟發。
其實在Jakarta org裡除了Jakarta-ORO外還有一個百分百的純JAVA正則表達式庫,就是由Jonathan Locke贈與Jakarta ORG的Regexp,在該包裡面包含了完整的文檔以及一個用於調試的Applet例子,對其有興趣的讀者可以到此 下載。