文章介紹了關於php中正則表達式的子模式詳解,有需要知道php中正則表達式的子模式的朋友可參考一下。
函數
mixed preg_replace ( mixed pattern, mixed replacement, mixed subject [, int limit])
功能
在 subject 中搜索 pattern 模式的匹配項並替換為 replacement。如果指定了 limit,則僅替換 limit 個匹配,如果省略 limit 或者其值為 -1,則所有的匹配項都會被替換。
replacement可以包含\n形式或$n形式的逆向引用,n可以為0到99,\n表示匹配pattern第n個子模式的文本,\0表示匹配整個pattern的文本。
子模式
$pattern參數中被圓括號括起來的正則表達式,子模式的數目即從左到右圓括號的數目。(pattern即模式)
首先,我們先看一段PHP代碼:
代碼如下 復制代碼顯示結果:
Array
(
[0] => 2012-06-23 03:08:45
)有沒有注意到,顯示的結果只有一條數據,即符合匹配模式的時間格式,那如果只有一條記錄的話,為什麼還要用數組保存呢?直接使用字符串保存不是更好?
帶著這個問題,我們來看下正則表達式中的子模式。
在正則表達式中,可以使用“(”和“)”將模式中的子字符串括起來,以形成一個子模式。將子模式視為一個整體時,那麼它就相當於一個單個字符。
比如,我們將以上的代碼稍微修改下,改成如下:
代碼如下 復制代碼
注意:我只修改了$pattern,在匹配模式中,使用了括號()
執行結果:
Array
(
[0] => 2012-06-23 03:19:23
[1] => 2012
[2] => 06
[3] => 23
[4] => 03
[5] => 19
[6] => 23
)
總結:我們可以使用小括號給整個匹配模式進行分組,默認情況下,每個分組會自動擁有一個組號,規則是,從左到右,以分組的左括號為標志,第一個出現的分組為組號1,第二個為組號2,以此類推。其中,分組0對應整個正則表達式。對整個正則匹配模式進行了分組以後,就可以進一步使用“向後引用”來重復搜索前面的某個分組匹配的文本。例如:1代表分組1匹配的文本,2代表分組2匹配的文本等等我們可以進一步修改下代碼,如下所示:
注意:
因為是在雙引號中,所以使用分組的時候應該使用兩個反斜槓,如:\1,而如果在單引號中,則使用一個反斜槓就可以了,如:1
\1用於捕獲分組一種的內容:2012,\6用於捕獲分組6中的內容
執行結果:
$time格式為:2012-06-23 03:30:31
替換後的格式為:2012年06月23日 03時30分31秒
Array
(
[0] => 2012-06-23 03:30:31
[1] => 2012
[2] => 06
[3] => 23
[4] => 03
[5] => 30
[6] => 31
)
高級正則表達式
除了 POSIX BRE 和 ERE 之外,libutilitis 還支持與TCL 8.2兼容的高級正則表達式語
法(ARE)。 通過為 stRegEx 參數增加前綴 "***:" 就可以開啟 ARE 模式,這個前綴覆
蓋 bExtended 選項。基本上講,ARE 是 ERE 的超集。 它在 ERE 的基礎上進行了如下幾
項擴展:
1. 支持"懶惰匹配"(也叫"非貪婪匹配"或"最短匹配"):在 '?', '*', '+' 或 '{m,n}'
後追加 '?' 符號就可以啟用最短匹配,使得該正則表達式子句在滿足條件的前提下匹
配盡可能少的字符(默認是匹配盡可能多的字符)。例如:將 "a.*b" 作用於 "abab"
時,將匹配整個串("abab"),若使用 "a.*?b",則將只匹配前兩個字符("ab")。
2. 支持子表達式的向前引用匹配:在 stRegEx 中,可以使用 'n' 向前引用曾經定義的
子表達式。如:"(a.*)1" 可匹配 "abcabc" 等。
3. 無名子表達式:使用 "(?:表達式)" 的方式創建一個無名表達式, 無名表達式不返回
到一個 'n' 匹配。
4. 向前預判:要命中匹配,必須向前滿足指定條件。 向前預判分為肯定預判和否定預判
兩種。肯定預判的語法為:"(?=表達式)",例如:"bai.*(?=yang)" 匹配 "bai yang"
中的前四個字符("bai "),但在匹配時保證字符串在 "bai.*" 後必須包含 "yang".
否定判斷的語法為:"(?!表達式)", 例如:"bai.*(?!yang)" 匹配 "bai shan" 的前
四個字符,但在匹配是保證字符串在 "bai.*" 後不出現 "yang"。
5. 支持模式切換前綴,在 "***:" 之後可以緊跟形如 "(?模式串)" 樣式的模式串,模式
串影響其後表達式的語義和行為。模式串可以是一下字符的組合:
b - 切換至 POSIX BRE 模式,覆蓋 bExtended 選項。
e - 切換至 POSIX ERE 模式,覆蓋 bExtended 選項。
q - 切換至文本字面匹配模式, 表達式中的字符都作為文本進行搜索,取消一切正則
語義。此模式將正則匹配退化為一次簡單字符串查找。"***=" 前綴是其快捷表示
方式,意即:"***=" 等同於 "***:(?q)"。
c - 執行大小寫敏感的匹配,覆蓋 bNoCase 選項。
i - 執行忽略大小寫的匹配,覆蓋 bNoCase 選項。
n - 開啟行敏感的匹配:'^' 和 '$' 匹配行首和行尾;'.' 和否定集('[^...]')不
匹配換行符。此功能等同於 'pw' 模式串。覆蓋 bNewLine 選項。
m - 等同於 'n'。
p - '^' 和 '$' 只匹配整個字符串的首尾,不匹配行;'.' 和否定集不匹配換行符。
覆蓋 bNewLine 選項。
w - '^' 和 '$' 匹配行首和行尾;'.' 和否定集匹配換行符。覆蓋 bNewLine 選項。
s - '^' 和 '$' 只匹配整個字符串的首尾,不匹配行;'.' 和否定集匹配換行符。覆
蓋 bNewLine 選項。ARE 狀態下默認使用此模式。
x - 開啟擴展模式:在擴展模式中,將忽略表達式中的空白符和注釋符 '#' 後的內容
例如:
@code@
(?x)
s+ ([[:graph:]]+) # first number
s+ ([[:graph:]]+) # second number
@code@
等同於 "s+([[:graph:]]+)s+([[:graph:]]+)"。
t - 關閉擴展模式,不忽略空白符和注釋符後的內容。ARE 狀態下默認使用此模式。
6. 與 BRE/ERE 模式不同的 Perl 風格字符類換碼序列:
perl類 等效POSIX表達式 描述
----------------------------------------------------------------------------
a - 響鈴字符
A - 不論當前模式如何,僅匹配整個串的最開頭
b - 退格字符 ('x08')
B - 轉義字符本身 ('\')
cX - 控制符-X (= X & 037)
d [[:digit:]] 10 進制數字 ('0' - '9')
D [^[:digit:]] 非數字
e - 退出符 ('x1B')
f - 換頁符 ('x0C')
m [[:<:]] 單詞開始位置
M [[:>:]] 單詞結束位置
n - 換行符 ('x0A')
r - 回車符 ('x0D')
s [[:space:]] 空白符
S [^[:space:]] 非空白符
t - 制表符 ('x09')
uX - 16 位 UNICODE 字符 (X∈[0000 .. FFFF])
UX - 32 位 UNICODE 字符 (X∈[00000000 .. FFFFFFFF])
v - 縱向制表符 ('x0B')
w [[:alnum:]_] 組成單詞的字符
W [^[:alnum:]_] 非單詞字符
xX - 8 位字符 (X∈[00 .. FF])
y - 單詞邊界(m 或 M)
Y - 非單詞邊界
Z - 不論當前模式如何,僅匹配整個串的最尾部
- NULL,空字符
X - 子表達式向前引用 (X∈[1 .. 9])
XX - 子表達式向前引用或 8 進制表示的 8 字符
XXX - 子表達式向前引用或 8 進制表示的 8 字符